Hrvatska revija 2, 2025.

Tema broja: Zakon o hrvatskom jeziku i jezična politika u RH

Zakon o hrvatskom jeziku i rad Vijeća za hrvatski jezik

Marko Tadić

Zašto su jezične tehnologije bitne za budućnost hrvatskoga jezika?

Dobri običaji oblikovanja informativnih tekstova nalažu da naslov nekoga teksta mora poslužiti kao naznaka samoga sadržaja toga teksta. Stoga je uvijek dobro početi razumijevati neki tekst od samoga njegova naslova, pa bi u slučaju gornjega naslova nazivak »jezične tehnologije« (JT) vjerojatno zahtijevao podrobnije objašnjenje. U Hrvatskom općem leksikonu (Leksikografski zavod Miroslav Krleža, 1996.) pod natuknicom tehnologija stoji sljedeća definicija: »skup metoda i postupaka za preradbu sirovina u proizvode«.

Što su jezične tehnologije?

Ta bi definicija svakome trebala na prvi pogled biti razvidna kad se govori o npr. kemijskoj tehnologiji: točno se zna da sirovine mogu biti npr. sumporov dioksid (SO2) i voda (H2O), postupak preradbe sirovine sastoji se od otapanja plina u vodi s pomoću katalizatora vanadijeva oksida (V2O5), a konačni proizvod je sumporna kiselina (H2SO4) koja se može razrijeđena iznijeti na tržište kao proizvod. Slično je i s nuklearnom tehnologijom ili nekim drugim tehnologijama.

Što je, međutim, sirovina, a što proizvod u slučaju jezičnih tehnologija? Odgovor na to pitanje moramo potražiti u tehničkoj podlozi na kojoj počivaju JT, a to je informacijska tehnologija u cijelosti, pa se JT u cijelosti oslanjaju na informacijsku tehnologiju na isti način kao što se i današnje komunikacijske tehnologije u cijelosti oslanjaju na informacijsku tehnologiju. Dakle, sirovina su u jezičnim tehnologijamaa  podatci o jeziku tj. jezik u digitalno pohranjenim tekstovima (ili u posvemašnjoj poplavi predmetka e-, mogli bismo reći u e-tekstovima). Za proizvode, na žalost, nema tako jednostavne definicije, nego bismo mogli reći kako su proizvodi JT-a sustavi koji korisniku omogućuju jednostavn(ij)u uporabu prirodnoga jezika u digitalnom okružju. Pritom ti sustavi zamjenjuju dio ljudskoga rada strojnim radom u raznim komunikacijskim situacijama. Primjer za to su npr. sustavi za strojno prevođenje gdje se rad čovjeka-prevoditelja zamijenio (više ili manje kvalitetno) strojnim »radom«. Iz tako definiranih JT-a proizlazi kako su podatci o jeziku tj. mnogobrojni prikupljeni e-tekstovi na nekom jeziku temeljni za razvijanje JT-a za taj jezik i bez dovoljne količine prikupljenih e-tekstova ne može se ni pomišljati krenuti s razvojem JT-a za taj jezik. Neka jezična zajednica mora doseći stupanj svijesti o samome svom jeziku, svojim potrebama za njim u suvremenim komunikacijskim kanalima i njegovoj uporabivosti u njima kako bi mogla početi ulagati u razvoj JT-a za svoj jezik.

Podjela JT-a korisna je ne samo istraživačima s toga područja nego i ljudima koji se svakodnevno koriste tim tehnologijama kako bi razumjeli sve njihove prednosti i nedostatke, pa se tako JT dijele na:

jezične resurse: računalni korpusi i digitalni rječnici koji priskrbljuju potrebne jezične podatke;

jezične alate: sustave za obradbu jezičnih resursa na svim jezičnim razinama počevši od fonološke i morfološke, preko sintaktičke i semantičke sve do pragmatičke razine;

(komercijalne) proizvode i mrežne usluge: aplikacije kao što su provjernici pravopisa, sustav T9 za dopunu riječi pri pisanju SMS-ova u mobitelima, sustavi za automatsko sažimanje dokumenata, sustavi za prepoznavanje govora i transkripciju ili za generiranje govora i spikiranje, sustavi za strojno prevođenje ili strojno potpomognuto prevođenje, sustavi za učenje stranih jezika i dijaloški sustavi koji mogu razumjeti pitanja i davati odgovore.

Mnogima od navedenih sustava služimo se svakodnevno, često i ne znajući da je riječ o proizvodima JT-a, a prvi su se put svi ti sustavi okupili pod istim nazivkom tijekom Petoga okvirnoga programa EU-a (Fifth Framework Programme, FP5) kad je on na engleskome glasio Human Language Technologies, a na hrvatskome (prirodno)jezične tehnologije.

Stupanj razvoja jezičnih tehnologija za hrvatski jezik

Premda su se prvi koraci u razvoju onoga što danas nazivamo JT u Hrvatskoj pojavili vrlo rano – već je 1959. u organizaciji profesora Bulcsúa Lászlóa u Zagrebu organizirana prva radionica o strojnom prevođenju – stanje razvijenosti JT-a za hrvatski jezik u 2011. još uvijek nije bilo zadovoljavajuće. Naime, u mreži četiriju EU-projekata META-NET (meta-net.eu), poduprtoj unutar Sedmoga okvirnoga programa EU-a, napravljene su tijekom 2011. snimke stanja razvoja JT-a za tridesetak jezika, a hrvatski je smješten u skupinu jezika s izrazito nisko razvijenim JT-om (uz dvadesetak drugih jezika). Razlozi takvoj nedostatnoj razvijenosti JT-a za hrvatski bili su višestruki, a ponajvažniji su bili s jedne strane nedostatnost prikupljenih podataka o jeziku, a s druge strane relativno oskudna financijska potpora i nedovoljan broj istraživača. Ne treba smetnuti s uma da je tome pridonijela činjenica kako se nerijetko na istraživanja samostalnoga hrvatskoga jezika u SFRJ gledalo ne blagonaklono, nego kao sredstvo potkopavanja totalitarne komunističke diktature, pa su rijetki priručnici s takvim samostalnim imenom (npr. znameniti Londonac) bili cenzurirani i uništavani, a autori nerijetko kažnjavani. Situacija se donekle promijenila stjecanjem samostalnosti Republike Hrvatske, ali je trebalo još pričekati do druge polovice devedesetih godina 20. stoljeća jer su svi znanstveni odnosi EU-a s RH bili zamrznuti zbog osloboditeljskoga Domovinskoga rata. Pravi su se pomaci počeli događati tek krajem staroga i početkom novoga tisućljeća, a moglo bi se tvrditi kako je prekretnicu 1998. napravio Hrvatski nacionalni korpus (hnk.ffzg.hr) kao treći veliki reprezentativni korpus za cjelinu nekoga jezika u povijesti korpusne lingvistike, ali zato prvi koji je bio slobodno mrežno pretraživ već godine 1999.

U drugom takvom sličnom sveeuropskom istraživanju u okviru projekta Europskoga parlamenta Europska jezična ravnopravnost (European Language Equality, ELE, european-
-language-equality.eu), godine 2022. napravljeno je trideset i pet izvješća sa snimkama stanja razvoja JT-a za 85 europskih jezika. Hrvatski je jezik jedva izašao iz kategorije »slaba ili nikakva razvijenost JT-a« u kategoriju »djelomična razvijenost JT-a«. Većina je službenih jezika EU-a u toj istoj kategoriji, a jedino su maltski i irski u nižoj kategoriji. Jedini jezik koji je u kategoriji »dobra razvijenost JT-a« je engleski, a njemački, španjolski i francuski u kategoriji su »umjerena razvijenost JT-a«. Međutim, u razmaku od 11 godina, koliko je proteklo između ta dva istraživanja, ipak je uočljiv napredak u razvoju JT-a za hrvatski jezik ponajprije u većem broju računalnih korpusa i njihovim većim opsezima kao i u većem broju digitalnih rječnika dostupnih ili mrežno ili u aplikacijama za mobilne uređaje. Razvijeni su i alati za obradbu hrvatskih tekstova na sintaktičkoj (prvi ovisnosni parser 2012.) i semantičkoj razini (npr. Wikifier 2014.), a već je od 2012. hrvatski jezik uključen u sustave EU-a za strojno prevođenje. Godine 2020. napravljen je prvi domaći strojnoprevoditeljski sustav Prevoditelj za predsjedanje Vijećem EU-a, tada za 6 BLEU bodova bolji od Googleova Prevoditelja za jezične parove englesko-hrvatski i hrvatsko-engleski, a 2023. završen je projekt Nacionalna platforma za jezične tehnologije koja je donijela novu inačicu strojnoprevoditeljskoga sustava i postala horizontalna usluga tijelima javne uprave u RH. Ta je platforma slobodno dostupna na mrežnoj adresi hrvojka.gov.hr. Još 2016. završen je i projekt prvoga portala za besplatno učenje hrvatskoga kao stranoga jezika hr4eu.hr ili hr4eu.eu, a još ga uvijek rabi nekoliko tisuća korisnika iz cijeloga svijeta. Veći dio potpore za sve te projekte dolazio je iz EU-a jer se striktno poštivalo jedno od temeljnih prava EU-a, a to je ravnopravnost službenih jezika, pa tako hrvatski kao najmlađi službeni jezik EU-a nije smio zaostajati za jezicima koji su to postali prije njega. To je istraživačkim timovima iz Hrvatske otvorilo mogućnost dobivanja financijske potpore i daljnjega razvoja JT-a za hrvatski jezik.

Međutim, unatoč relativno dobrom napretku još uvijek postoji nedostatak u mnogim područjima JT-a za hrvatski jezik kao što je manjak velikih usporednih korpusa tj. tekstova na više jezika koji teku usporedno. Također, gotovo da nemamo tzv. multimodalnih korpusa tj. korpusa koji bilježe govor na hrvatskom u audio ili video zapisu popraćen njegovom transkripcijom u tekst. Nemamo domaćega sustava za obradbu hrvatskoga govora bilo za prepoznavanje govora ili za spikiranje, pa mnogi takvi sustavi razvijeni izvan RH zvuče neprirodno ili kao da ih izgovara govornik nekoga od susjednih jezika.

Promjena paradigme u jezičnim tehnologijama: veliki jezični modeli

Posvemašnja se promjena paradigme u računalnoj obradbi prirodnoga jezika i jezičnim tehnologijama, ponajprije u strojnom prevođenju, počela događati 2014. s uvođenjem postupaka računalnoga dubokoga učenja (deep learning) i neuronskih mreža (neural networks) s pomoću kojih se mogu izgraditi računalni modeli ljudskoga jezičnoga znanja i jezične uporabe nazvani veliki jezični modeli (VJM-i) tj. Large Language Models (LLMs).

Pravi je pak potres izazvao izlazak VJM-a ChatGPT u opću javnost u studenome 2022. Moglo bi se reći kako je upravo taj događaj u mnogome pomogao javnosti da osvijesti čime se zaista računalni lingvisti bave i zapravo im je napravio besplatnu reklamu svjetskih razmjera.

Na ovom bi se mjestu moralo posegnuti za bitnim pojmovnim i nazivoslovnim razjašnjenjem. U općoj se javnosti za ChatGPT i slične sustave najčešće koristi nazivak umjetna inteligencija (UI). To je neprecizna uporaba nazivka jer je UI znatno šire područje od same obradbe prirodnoga jezika. Naime, obradba prirodnoga jezika (Natural Language Processing, NLP) samo je jedna od sastavnica UI-ja, a ostale su robotika, umjetni vid, pretraga i crpljenje obavijesti, tehnologije znanja, predstavljanje znanja (npr. grafovi znanja), (zdravorazumsko) zaključivanje, itd.

Odnose između opće UI, generativne UI, VJM-ova i generativnih predobučenih transformatora (Generative Pretrained Transformers, GPT), kao posebne vrste VJM-ova, najlakše je predstaviti grafički (v. sl. 1).

Stoga je umjesto »umjetna inteligencija (UI)« za sustave poput ChatGPT-ja i sličnih točniji i precizniji nazivak »veliki jezični model (VJM)«, a takvu ćemo uporabu poštivati i u ovom tekstu.

Što su veliki jezični modeli? Riječ je o opsežnim jednojezičnim ili višejezičnim skupovima tekstnih podataka koji se koriste za kondenzirano predstavljanje ljudskoga znanja pri uporabi jezika. Opseg tih skupova podataka mjeri se u milijardama tekstova i oni se koriste za prethodnu obuku tj. »trening« VJM-ova. Tek obučeni VJM-ovi mogu »znanje« stečeno tijekom obuke primijeniti na novim tj. do tada neviđenim tekstovima.

Kako obuka izgleda najlakše je objasniti na primjeru obuke prijevodnih modela. Njih se obučava stalnim stimuliranjem jednom vrstom ulaznoga podatka, a od računalno modelirane mreže (umjetnih »neurona«) traži se izlazni podatak što sličniji drugoj polovici ulaznih podataka. Kao primjer navodimo par sravnjenih rečenica između kojih postoji prijevodna ekvivalencija tj. rečenica na ciljnom jeziku prijevod je rečenice s izvornoga jezika.

Prijevodni se VJM obučava tako da se računalnoj neuronskoj mreži nekoliko milijuna puta daje na ulaznom sloju mreže isti ulazni podatak (u našem primjeru rečenica na engleskom), od unutarnjih se slojeva mreže traži da se veze između »neurona« restrukturiraju u svakom prolazu ulaznoga podatka ne bi li izlazni podatak, koji sustav isporučuje kroz izlazni sloj mreže, bio potpuno jednak ili što sličniji željenom izlaznom podatku (u našem primjeru rečenica ljudski prevedena na hrvatski). Nakon nekoliko milijuna prolaza unutarnji se slojevi mreže rekonfiguriraju kako bi proizveli željeni izlazni podatak što je najviše moguće sličan željenom izlaznom podatku i kad dođe do zasićenja tj. kad se više ne postiže napredak, obuka se prekida i obuka VJM-a je okončana. Dodatno se VJM obučen za opći jezik može doobučiti (fine-tuning) za različita specijalistička područja (npr. medicina, meteorologija, kemija, pravo, itd.) ili različite zadatke obradbe prirodnoga jezika (prepoznavanje imena ili stavova tekstovima, crpljenje nazivlja, itd.).


Sl. 1: Shematski prikaz odnosa između opće UI, generativne UI, VJM-ova i GPT-ova


Sl. 2: Primjer sravnjenoga para rečenica u odnosu prijevodne ekvivalencije

Danas su najpoznatiji VJM-ovi ChatGPT, GPT-4o, Gemini, Llama, Copilot, Deep Seek, itd. i mahom su u vlasništvu velikih američkih ili kineskih tehnoloških tvrtki. S tim je povezano nekoliko ozbiljnih pitanja, a sva se dotiču transparentnosti tih sustava. Naime, najčešće nije poznato koji su se podatci koristili za obuku tih VJM-ova. Nije poznato koliko se često obnavljaju tj. ažuriraju i s kakvom vrstom novih tekstnih podataka. Nije poznato uključuje li se u te VJM-ove tekstove s posebnim skupovima vrjednota, pa onda oni pokazuju naklonost prema određenim stavovima, a odbojnost prema drugima. Svi su ti VJM-ovi, na žalost, pušteni na tržište bez ozbiljne ljudske provjere njihove vjerodostojnosti i istinitosti. Stoga nisu nepoznate pojave potpuno lažnih tvrdnji (tzv. haluciniranje) koje su iskazane na savršeno kultiviranom jeziku, ali riječ je jednostavno o lažima. Tome se nipošto ne treba čuditi. VJM-i su obučeni milijardama tekstova koje su napisali ljudi na temelju svoga jezičnoga znanja i svoje jezične porabe, a sami ljudi u tekstove uključuju štošta. Mnogi govore istinu, ali se u tekstovima može lagati, izrugivati se, skrivati poruku, mistificirati, zamagljivati, manipulirati sugovornicima, producirati se, itd. Svi su ti tekstovi korišteni za obuku, pa se ne treba čuditi da se takve jezične pojave nalaze i u VJM-ima. Oni su samo odslik onoga što i ljudi čine s jezikom i zapravo ne bismo smjeli tvrditi kako VJM-i imaju vlastitu inteligenciju. Riječ je samo o velikim količinama ljudske uporabe jezika i iz toga izvedenih pravila uporabe na svim jezičnim razinama, pa je stoga s pomoću njih moguće generiranje tekstova na besprijekornom prirodnom jeziku, ali s istinitim ili posvema neistinitim sadržajem. Jeste li, npr., pokušali zatražiti od ChatGPT-ja svoj životopis? Možete naići na zanimljiva zbivanja u svome životu za koja niste ni znali da su postojala.

Što će biti s jezicima bez razvijenih jezičnih tehnologija?

Razvoj jezičnih tehnologija za pojedini jezik nesumnjivo omogućuje jeziku da ostane živ i uporabiv u digitalnome okružju, a osobito u komunikacijskim kanalima 21. stoljeća. Ma kakvi god oni postali do kraja ovoga stoljeća, nije za očekivati da ćemo kao vrsta Homo sapiens uskoro razviti telepatiju, pa ćemo zacijelo i dalje morati komunicirati na nekom prirodnom jeziku. Ako za hrvatski jezik ne budemo imali razvijene jezične tehnologije koje će olakšati njegovu uporabu u tim komunikacijskim kanalima, onda će ljudi koji se njima koriste iz čiste komocije posegnuti za nekim jezikom za koji takve tehnologije postoje. Toga će trenutka hrvatski postati funkcionalno nepismen ili »digitalno nepismen« jezik jer se postojanje jezičnih tehnologija za neki jezik danas može smatrati novim stadijem pismenosti. Takav će jezik ostati onkraj digitalne razdjelnice i ubrzo će izumrijeti jer će se do tada njegovi govornici početi koristiti nekim drugim jezikom i postati govornici nekoga drugoga jezika.

Pred našim se očima upravo odvija potpuna promjena paradigme u jezičnim tehnologijama, a nju su donijeli VJM-i jer gotovo svi sustavi s područja prirodne obradbe jezika, koji koriste VJM-e kao podlogu, mahom daju bolje rezultate od prijašnjih sustava temeljenih na pravilima ili jezičnoj statistici. To bi moglo značiti kako bi se svi jezični alati do sada razvijeni, morali preraditi uzevši VJM-ove kao temeljnu metodologiju. U tom nam smislu ponovno za hrvatski predstoji zacijelo još mnogo posla.

U tom je smislu Zakon o hrvatskom jeziku doista zakon za budućnost jer se u njegovu članku 16, stavak 2c jasno regulira kako se u Nacionalnom planu hrvatske jezične politike svakako mora razraditi unaprjeđenje jezičnih tehnologija za hrvatski jezik. Štoviše, navode se neka od područja JT-a od posebnoga značaja, a jedno je i »...slobodan pristup digitaliziranim tiskovinama na hrvatskom jeziku te drugi javni mrežni jezični servisi...«.

Zašto su veliki jezični modeli važni i za hrvatski jezik?

Iz prethodno rečenoga sasvim je razvidno kako će se jezici koji ne budu imali svoje jednojezične VJM-e ili ne budu sudjelovali u najpopularnijim višejezičnim VJM-ima, naći isključeni iz novih trendova razvoja jezičnih tehnologija, a takvo što nikako ne bismo poželjeli hrvatskome jeziku. Zbog toga moramo osigurati dovoljno jezično kvalitetnoga, općega i specijaliziranoga jezičnoga gradiva na hrvatskome jeziku tj. podataka za obuku VJM-ova kako bi se 1) mogao obučiti jednojezični hrvatski VJM za svaku novu arhitekturu VJM-ova koja će se pojaviti i 2) hrvatski jezik uvijek pojavio u svakom važnijem višejezičnom VJM-u zasebno, a ne pod 
kapom nekakvoga HBS-makro-jezika kao što se u nekima od projekata izrade VJM-ova već dogodilo.

Vitalnost hrvatskoga jezika i jamstvo njegova preživljenja u digitalnome okružju i UI-ju u budućnosti možemo osigurati samo njegovom stalnom prisutnošću u podatcima za obuku raznih VJM-ova u dovoljnoj količini. Stoga valja organizirati i prionuti na kontinuiranu široku kampanju prikupljanja do sada neviđene količine tekstnih podataka na hrvatskome jeziku i ponuditi ih istraživačima za izradu VJM-ova. Upravo takvu digitalnu dostupnost tiskovina spominje i Zakon o hrvatskome jeziku. Naime, VJM-ovi su danas temelj za budući razvoj JT-a, ali i za razvoj tehnologija znanja koje se na VJM-ove nadograđuju. Umjetna inteligencija mora znati hrvatski jer to njegovi govornici već sad traže. n

Marko Tadić, jezikoslovac, redoviti profesor u trajnome zvanju na Odsjeku za lingvistiku Filozofskog fakulteta Sveučilišta u Zagrebu. Predstojnik Katedre za algebarsku i računalnu lingvistiku od 2001., a član-suradnik Hrvatske akademije znanosti i umjetnosti od 2008. Bio je članom Stalnog odbora za humanističke znanosti Europske znanstvene zaklade (2009–2012.), madžarske nacionalne istraživačke mreže Eötvös Loránd (2020–2023.) i članom Područnoga vijeća za humanističke znanosti Nacionalnoga vijeća za znanost Republike Hrvatske u četiri mandata. Predsjednik je Hrvatskoga društva za jezične tehnologije. Objavio više od 120 članaka, 5 autorskih i 6 uredničkih knjiga.

Hrvatska revija 2, 2025.

2, 2025.

Klikni za povratak