Vijenac 160

Informatika

Povratak u budućnost

Microsoft i hrvatski sinonimi

Posao na sinonimskom rječniku i njegovoj izvedbi u obliku računalnog programa trebao bi završiti tijekom jeseni.

Povratak u budućnost

Microsoft i hrvatski sinonimi

Posao na sinonimskom rječniku i njegovoj izvedbi u obliku računalnog programa trebao bi završiti tijekom jeseni. Posebno ohrabruje činjenica da smo uspjeli zadržati i razinu kvalitete ukupnoga rješenja izvedbe sinonimskog rječnika, o čemu najbolje govori podatak da se Microsoft kao najveća softverska tvrtka u svijetu odlučio na kupnju ovog rješenja

Javnosti je poznat računalni program Hrvatski računalni pravopis koji je Matica hrvatska objavila još prije nekoliko godina u sklopu biblioteke Izdanja u suradnji, kao zasigurno jedno od prvih izdanja iz područja računalne lingvistike, namijenjeno najširem krugu korisnika i čitatelja u Hrvatskoj općenito. U praktičnom smislu riječ je o vrlo jednostavnu programskom modulu koji se tijekom procedure postavljanja na računalo integrira u program za obradu teksta Word tvrtke Microsoft i omogućava korisniku pravopisnu provjeru te rastavljanje riječi prilikom pripreme i obrade teksta. Jednostavnost uporabe ukida potrebu za posebnim pisanim uputama, tako da program prati koncizan i praktičan pravopisni priručnik. Pored toga korisnicima stoji na raspolaganju i samostalni programski modul pod naslovom Gramatički tezaurus koji služi za prezentaciju oblika riječi, što je od iznimne važnosti uzme li se u obzir činjenica da je hrvatski jezik sintetički jezik.

U svjetskoj praksi u širokoj je primjeni zapravo pet vrsta jezičnih alata u programima za obradu teksta koje nazivamo skupnim imenom alati za provjeru jezika (proofing tools). To su pravopis (speller), rastavljanje riječi (hyphenation), sinonimski rječnik (thesaurus), gramatička provjera (grammar check) i oblici riječi (word forms). Sukladno tim standardima može se reći da Hrvatski računalni pravopis zapravo obuhvaća tri alata, i to pravopis, rastavljanje riječi i oblike riječi. Tu činjenicu svakako valja upotpuniti tvrdnjom da se jezični alati uključeni u Hrvatski računalni pravopis ne samo funkcionalno nego i po kvaliteti izvedbe mogu mjeriti sa svjetskim rješenjima, a kada je riječ o alatu oblici riječi, koji je u sklopu Hrvatskoga računalnog pravopisa nazvan Gramatički tezaurus, imaju čak i stanovitu prednost u odnosu na poznata rješenja u svijetu. Za oblike riječi još ne postoji zadani standard korištenja ili zadano korisničko sučelje. Rješenja su vrlo rijetka, načini se njegove uporabe razlikuju, a svojstveno je tom alatu da je napravljen za vrlo malen broj jezika. Na jednom skupu u Dublinu 1998, gdje su predstavnici desetak zemalja raspravljali o smjerovima razvoja jezičnih alata, naša se mala skupina jedina mogla podičiti gotovim proizvodom koji pokazuje oblike riječi. Nije dakako u pitanju samo samohvala, nego nas je ustrojstvo našega jezika prisililo da prema problemima morfologije zauzmemo aktivniji odnos nego kolege iz drugih jezičnih sredina.

Svi oni koji su se imali prilike koristiti Gramatički tezaurus već na prvi pogled mogu zaključiti da standardi razvijeni za tzv. analitičke jezike, kakav je engleski, ne mogu biti valjani uzorak za hrvatski jezik. Najmanje su dva razloga tome. Jedan je određen pravilima tvorbe oblika riječi, a drugi tradicionalnim stajalištem da hrvatski jezik nije »sinonimski« jezik. Ovdje ćemo ukratko iznijeti praktične posljedice i tih tvrdnji i naše metodološke odrednice u izradi jezičnih alata.

Činjenica morfološkog ustroja hrvatskoga jezika računalno je riješena dvama postupcima. S jezikoslovne strane to je morfološki rječnik hrvatskoga jezika (Ranilović, Silić), a s računalne, to je metoda sažimanja rječničke baze i algoritam pretraživanja sažete baze (Batnožić). Ta osnova dodatno je proširena metodama koje omogućavaju obradu, nizova riječi i pojedinih rečeničnih sklopova. Riječ je o toliko opsežnu proširenju da slobodno možemo govoriti kako se radi o drugoj generaciji sustava za obradu jezika. Takva tehnološka podloga osnova je na kojoj gradimo nove jezične alate, pa tako i sinonimski rječnik. Njegova će posebnost (u odnosu na alate germanskih jezika) biti u tome da će svaki sinonim/antonim ponuditi gramatički primjeren oblik (po rodu, broju, padežu i vremenu ili načinu). Tako npr. nije dovoljno da za zadanu riječ ružnome ponudimo antonim lijep, nego oblik lijepome, za riječ zgradama ponudit će se oblik kućama itd. Radi potpunosti valja obratiti pozornost i na probleme kao što su nejednaki stupanj slobode u morfološkim oblicima, gramatička homonimija i sl. koji prelaze okvire ovoga prikaza.

Već u početnim razgovorima na temu Thesaurusa, čuli smo od ponekih jezikoslovaca, a to mišljenje dijele i druge slavenske sredine, kako hrvatski jezik (kao i ruski) nije sinonimski jezik. Ta pretpostavka dovodi do vrlo udobna rješenja za autore. Potrebno je napisati ponešto »pravih sinonima i antonima« (kuća-zgrada, crno-bijelo) i gotov posao! No, po našem mišljenju, tako udobno stajalište dovodi korisnike našega rječnika u inferiornu poziciju. Takav sinonimski/antonimski rječnik nikomu ne treba.

Istina je da hrvatska jezikoslovna i kulturološka tradicija te sama narav jezika nameću određene razlike u pristupu, ali kategorizacija hrvatskoga jezika kao nesinonimskog jezika predrasuda je koja pada u vodu u trenutku kada se aktivno pristupi rječniku. Krenimo od pojma sinonim i njegova prijevoda istoznačnica. Starogrčki syn znači s ili uz, pa bi tumačenje suznačnica bolje odgovaralo kako izvornom značenju, tako i jezičnoj stvarnosti. Pogledajmo kako se to tumačenje reflektira na već opisani primjer kućazgrada. Rečenicu »Idem kući« ne možemo zamijeniti rečenicom »Idem zgradi«, ali rečenicu »Ova je zgrada ružna« možemo zamijeniti rečenicom »Ova je kuća ružna«. Riječi zgrada i kuća dakle mogu biti sinonimi, ali njihova je sinonimska zamjenjivost kontekstualno određena. Pristupimo li problemu na takav način, problematika sinonimije učas će se promijeniti. Uloga autora sinonimskog rječnika jest pomoći korisniku u pronalaženju prihvatljivih stilskih inačica unutar njegova teksta. Stajalištem kako »hrvatski nije sinonimski jezik« takvu bismo pomoć unaprijed otklonili.

Ovom prigodom moguće je samo odškrinuti pogled u rječnik i metodološki pristup ugrađen u naš budući sinonimski rječnik. Za detaljni uvid čitatelj koji ne koristi osobno računalo morat će pričekati izlazak Matičina Pravopisa hrvatskog rječnika Ranilovića i Silića koji je u pripremi već tri godine. Do kašnjenja je došlo jer je prva inačica (predana za tisak 1996) trebala biti tiskana kao morfološki rječnik, a kada je izlazak konačno dogovoren, autori su već imali obrađeno oko tri četvrtine sinonimske građe. Zato je odlučeno da se s izdavanjem pričeka i knjiga objavi kao morfološki i sinonimski rječnik.

Rad na pripremi jezične građe je pri kraju, tako da je moguće iznijeti nekoliko brojčanih pokazatelja. Rječnički korpus ima oko stotinu i trideset tisuća natuknica. Za trideset posto natuknica nisu nađeni sinonimi (za sada), dok ostalih stotinjak tisuća ima 197.923 sinonima, 7.074 antonima, a za 28.811 natuknica dano je kratko tumačenje. Jezikoslovci obično ne vjeruju brojkama, pa će pričekati izlazak rječnika, ali je već sada evidentno kako je za sedamdeset posto natuknica moguće pronaći suznačnicu. Za usporedbu, u ruskih kolega na sličnom zadatku taj se broj kreće oko dvadeset posto.

Kada je riječ o pitanju da li je hrvatski jezik nesinonimski jezik, možemo zaključiti ovo: dvojba o sinonimnosti i nesinonimnosti jezika umjetno je stvorena. Jezici se dakako razlikuju, jezikoslovne i kulturološke tradicije također, ali razlikuje se i volja autora da se pozabave radom na rječniku na korist čitatelja. Svatko tko pokuša hrvatski jezik obrađivati u cilju neposredne pomoći pri pisanju brzo će shvatiti kako su razlike između prirode različitih jezika mnogo manje nego što se obično misli.

Posao na sinonimskom rječniku i njegovoj izvedbi u obliku računalnog programa trebao bi završiti tijekom jeseni. Posebno ohrabruje činjenica da smo uspjeli zadržati i razinu kvalitete ukupnoga rješenja izvedbe sinonimskog rječnika, o čemu najbolje govori podatak da se Microsoft kao najveća softverska tvrtka u svijetu odlučio na kupnju ovog rješenja. Svakako valja istaknuti da će bez obzira na sve okolnosti i probleme rad na razvoju postojećih kao i novih jezičnih alata biti nastavljen, za što smo uživali maksimalnu potporu i razumijevanje Matice hrvatske, čime Matica hrvatska daje izniman prinos razvoju računalne lingvistike u Hrvatskoj općenito.

Slaven Batnožić, Branko Ranilović

Vijenac 160

160 - 20. travnja 2000. | Arhiva

Klikni za povratak