Vijenac 217

Jezik

Marko Tadić

Bez alata nema rezultata

Europske integracije i hrvatski jezik: jezičnotehnološki aspekti

Europske integracije i hrvatski jezik: jezičnotehnološki aspekti

Bez alata nema rezultata

Širi okvir odnosa hrvatskoga jezika i europskih integracija valja potražiti u strateškim smjernicama Europske unije. Ovaj će se prilog zadržati samo na tehnološkim aspektima tih smjernica tj. na ulozi jedne od tehnologija — informacijske — i njezinu odnosu prema prirodnu jeziku.

Strategija razvitka Europske unije, koja je prihvaćena krajem devedesetih godina prošloga stoljeća, jest Europska unija kao informacijsko društvo. Riječ je o strukturalnoj promjeni industrijskoga i postindustrijskoga društva u društvo u kojem je informacijska tehnologija svakodnevna i nezaobilazna pojava. Takvo društvo ni u cjelini, a niti u kojem od svojih dijelova ne može funkcionirati bez potpore informacijske tehnologije. Velik broj klasičnih, ustaljenih pod-sustava reorganizira se imajući u vidu informacijsku tehnologiju kao temeljnu infrastrukturu. Time se dotadašnji društveni odnosi uvelike svode na jedinstvenu komunikacijsku paradigmu. Tako se klasična trgovina, gospodarstvo, uprava pretvaraju u e-trgovinu, e-gospodarstvo, e-upravu itd.

U svjetlu te strateške odluke Europska je komisija u okviru Petoga okvirnoga programa (5th Framework Programme) tj. globalnoga okvira za organizaciju znanstveno-tehnološko-razvojnih istraživanja u EU, značajan dio svoga proračuna namijenila za potporu Tehnologijama informacijskoga društva (Information Society Technologies, IST). Riječ je o gotovo 4 milijarde eura samo za istraživanja tehnologija izravno povezanih s informacijskim društvom.

Što se, međutim, s takvim postupkom reorganizacije ipak ne mijenja u primjeni svih tih novih digitalnih komunikacijskih kanala? Ne mijenja se uporaba prirodnoga, ljudskoga jezika. Stoga je jedno od najvažnijih potpodručja IST-a posvećeno upravo razvitku temeljnih tehnologija koje omogućuju pristup i uporabu svih navedenih e-ova na prirodnom (materinskom) jeziku svakome građaninu EU. To je potpodručje nazvano Jezične tehnologije (Human Language Technologies, HLT). Mirne se duše može tvrditi da se informacijsko društvo u nekoj društvenoj zajednici neće moći postići ukoliko se za jezik kojim se ta zajednica služi ne razviju jezične tehnologije (JT).

Što su jezične tehnologije?

Prema Leksikonu LZ-a tehnologija je »znanost o tehničkim postupcima prerade sirovina u proizvode«. Dok je sasvim raspoznatljivo što je sirovina a što proizvod u npr. kemijskoj tehnologiji, to u jezičnim tehnologijama ne mora biti tako jednostavno. Obično se kaže da su sirovine podatci o jeziku (digitalizirani, dakle, u obliku e-teksta), a proizvodi su pomagala koja nam omogućuju uporabu našeg prirodnog (materinskog) jezika u računalnom okružju tj. u komunikacijskim kanalima 21. stoljeća koji su ionako već gotovo u potpunosti digitalni i računalno upravljani.

Jezične se tehnologije najčešće određuju s pomoću dvije temeljne sastavnice: 1) jezičnih resursa, 2) jezičnih alata. Jezični su resursi digitalno usustavljena i pretraživa jezična građa. Ona dolazi u dva oblika: a) kao korpusi tj. zbirke tekstova na jednom ili više jezika koje služe kao znatna količina jezičnih podataka za temeljna istraživanja o jeziku/jezicima i njihovim međuodnosima; b) kao digitalni rječnici lako dostupni i pretraživi on- ili off-line.

Na temelju jezičnih resursa kao ishodišnih podataka razvijaju se jezični alati koji ili obrađuju postojeće jezične resurse ili služe za stvaranje novih jezičnih resursa. Jezični alati su ti koji nam omogućuju jednostavniju, bržu, jeftiniju uporabu prirodnoga jezika u računalnome okružju.

U konačnici među JT se ubrajaju i komercijalni proizvodi koji mogu biti bilo resursi, bilo alati ili pak kombinacija to dvoje.

Korak po korak

Za svaki se prirodni jezik JT moraju razvijati zasebno jer je svaki jezik različit od drugoga. Nije moguće provjernik pravopisa napravljen za slovenski, primijeniti na hrvatski premda su ti jezici genetski bliski, slični i u dobroj mjeri međusobno razumljivi. To, dakako, ne znači da ne treba proučiti rješenja dosegnuta za druge jezike. Dapače, ta rješenja valja dobro poznavati kako bi se izbjegle pogreške pri njihovu dostizanju, ali i načelno prihvatila njihova uspješna metodologija. Mogućnost primjene gotovih rješenja za jedan jezik na druge jezike gotovo i ne postoji jer svaki jezik ima drukčiju strukturu. Upravo se po njoj jezici međusobno razlikuju te se stoga moraju razlikovati i JT za pojedine jezike.

Polazište razvitka JT za neki jezik upravo su jezični resursi i to najprije korpusi (opsega desetak ili stotinjak milijuna riječi tekućega teksta), a potom i digitalni rječnici (kako specijalizirani glosari, tezaurusi, tako i rječnici općega jezika). Nastavak razvitka JT sastoji se od razvitka jezičnih alata i to na raznim jezičnim razinama.

Na prvome su mjestu (komercijalno ujedno najzanimljivije) razne vrste provjernika: pravopisni provjernik (spelling checker), gramatički provjernik (grammar checker) i provjernik stila (style checker). Nadalje, sustavi na razini morfologije omogućuju zaobilaženje problema različitih oblika iste riječi (npr. pretraživanje WWW-a s obzirom na razne padeže hrvatskih imenica gdje je dovoljno postaviti upit u nominativu, a rezultat uključuje dokumente u kojima se tražena riječ pojavljuje i u ostalim padežima, upravo onako kako svaki izvorni govornik hrvatskoga prepoznaje jednu riječ kao skup njezinih različitih oblika). Potom sustavi koji omogućuju obradbu na razini sintakse mogu se koristiti pri crpljenju podataka (data extraction) iz tekstova ili za prepoznavanje naziva (named-entity recognition) kao i za analizu rečeničnih struktura kojom se prepoznaju radnja, činitelji i trpitelji radnje itd.

Sustavi za strojno (potpomognuto) prevođenje, koji za mnogoljudnije jezike postoje već u obliku komercijalnih proizvoda, čine sljedeću vrstu alata koje valja razviti. Tu nije riječ o vrhunskom prevođenju književnih djela, već o sustavima koji nam omogućuju pristup osnovnim podatcima na npr. WWW stranicama na nepoznatom jeziku s prijevodom na naš materinski. Potrebe za takvim »nesavršenim« ali iznimno brzim i informativnim prevođenjem rastu danas nevjerojatnom brzinom s pojavom sve većega broja web-stranica na različitim jezicima.

Također su za značajnije jezike danas dobavljivi i sustavi za konverziju govora u pismo (speech to text): sustavi za diktiranje, zapovijedanje itd. kao i obrnuto (text to speech): npr. automatski spikeri.

Hrvatski jezik i strategija razvitka

Ako je vjerovati jednoj od temeljnih intencija Europske unije, a to je očuvanje raznolikosti identiteta europskih naroda što, dakako, uključuje i jezični identitet, onda bi hrvatski s trenutkom pristupanja Republike Hrvatske EU morao postati jedan od njezinih službenih jezika. U tom ćemo trenutku već morati imati razvijene JT za hrvatski jezik. Dakle, sada smo već morali dobrano poodmaći u njihovu razvitku. Na žalost, ozbiljno kasnimo i to ne za engleskim, njemačkim, francuskim, talijanskim ili španjolskim već kasnimo za češkim, madžarskim, slovenskim, slovačkim, rumunjskim, bugarskim... U strategiji Ureda za strategiju razvitka Republike Hrvatske pod naslovom Hrvatska u 21. stoljeću. Informacijska i komunikacijska tehnologija o hrvatskome jeziku i/li govoru postoji jedna jedina rečenica na stranici 19. koja glasi: »Potaknuti istraživanja o hrvatskom jeziku i govoru potrebna za razvoj sučeljavanja s nacionalnim sadržajima na informacijskoj i komunikacijskoj infrastrukturi«. Zar hrvatski jezik samo za sučeljavanje kao da u hrvatskome tekstu nema pohrane informacija koje vrijedi crpsti? Zar samo nacionalni sadržaji na materinskom jeziku? Zašto se hrvatskim ne bi moglo pristupati i internacionalnim sadržajima?

Prisutnost hrvatskoga u digitalnome svijetu

Situacija je s hrvatskim jezikom u digitalnom svijetu sve samo ne dobra. Nema niti jedne profesionale, sustavno održavane polazne web-stranice (homepage) za hrvatski jezik u cjelini koja bi dala podatke o njegovoj strukturi, povijesti, izgovoru, temeljnom rječniku, osnovnim izrazima itd. Sve do sada izrađene stranice rezultat su zapravo amaterskoga (i to u pozitivnom, izvornom značenju te riječi, tj. ljubiteljskoga) truda. Koja bi znanstvena institucija to za hrvatski morala obavljati profesionalno?

Do nedavno se govorilo: »Ako te nije bilo na televiziji, kao da te nije bilo«. Danas je ulogu tog općeglobalnoga medija preuzeo WWW. Prisutnost nacionalnoga jezika na webu mora imati status nacionalnoga simbola poput grba, zastave ili himne. Ako ga tamo nema, kao da ga nije bilo. A prisutnost jezika ne mjeri se samo brojem web-stranica objavljenih na tom jeziku nego i postojanjem i dostupnošću jezičnotehnoloških resursa i alata putem weba. Tražilice (search engines), rječnici, korpusi, enciklopedije, baze znanja itd. sve su pomagala koja nam olakšavaju rad s webom. Strojno bi prevođenje moralo imati istaknut status unutar toga područja jer ukoliko na npr. AltaVisti ne bude u dogledno vrijeme moguće prevesti neku web-stranicu s npr. engleskoga na hrvatski (ili obrnuto) to bi moglo rezultirati smanjenjem protoka podataka što u krajnjem slučaju vodi zaostajanju prvo u komunikaciji, a potom i u općem razvitku. Prisutnost hrvatskoga jezika na webu pod svojim nacionalnim imenom također je od iznimne važnosti za osvješćivanje u svijetu razlike između hrvatskoga i srpskoga jezika.

Mi u ovom trenutku, na žalost, za hrvatski imamo razvijeno tek nešto temeljnih resursa i osnovnih alata. Od korpusa tu su uz stanovit broj starijih jednojezičnih korpusa tek Hrvatski nacionalni korpus (www.hnk.ffzg.hr) i Hrvatsko-engleski paralelni korpus te Hrvatsko-slovenski paralelni korpus koji se sastavljaju u Zavodu za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu. Nemamo općega rječnika hrvatskoga jezika na webu premda postoji desetak visokospecijaliziranih, ali ograničenih pojmovnika. Za hrvatski postoji pet provjernika pravopisa, no niti jedan gramatički ili provjernik stila. Postoje dva morfološka generatora, jedan analizator ali nema tražilica koje bi se služite tim alatima. Kad je riječ o analizi rečenica nema nikakvih (osim istraživačkih prototipova) sustava za prepoznavanje dijelova ili čitavih rečenica hrvatskoga teksta. O strojnome prevođenju s i na hrvatski ne treba trošiti riječi (postojeći pokušaji ispod su svake razine pristojnosti). Postoji tek jedan portal (www.hnk.ffzg. hr/jthj) kojim se pokušalo na jednom mjestu okupiti sve podatke relevantne za JT za hrvatski jezik.

Opasnosti

Tako siromašno stanje s istraživanjima JT za hrvatski jezik može rezultirati opasnošću. Naime, ukoliko se ne razviju JT za hrvatski jezik, on bi za nekoliko godina mogao postati funkcionalno nepismen. Ono što je sigurno, jest to da potreba govornika hrvatskoga za komuniciranjem neće nestati. Neće nestati ni komunikacijski kanali 21. stoljeća. Naprotiv, njih je sve više: GSM telefoni, e-mail, pričaonice (chat-rooms), mrežne novine (usenet groups), ICQ... kao i svi oni kanali koje još niti ne možemo zamisliti, a pojavit će se do kraja stoljeća. Svi se ti kanali koriste sve više i više (broj SMS i e-mail poruka raste više nego eksponencijalno). Uslijed komocije korisnika i nedostatka alata za jednostavnije komuniciranje hrvatskim u tim komunikacijskim kanalima, ljudi će se okrenuti onome jeziku za koji su ti alati razvijeni, dakle, engleskome. U tom će trenutku, a neki se oblici te opasnosti već mogu nazrijeti, hrvatski jezik postati funkcionalno nepismen u cijelom segmentu javne i privatne komunikacije.

Što učiniti?

Područje jezičnih tehnologija za hrvatski jezik valja tretirati kao područje od prioritetne i fundamentalne važnosti u humanističkim i dijelom u društvenim znanostima. Treba što hitnije u obliku cjelovitoga istraživačkoga programa adekvatno (ljudski i financijski) poduprijeti istraživanja i organizirati ih bez preklapanja i istodobnog ponavljanja istoga posla u više istraživačkih institucija. Treba »digitalizirati« hrvatski u što kraćem roku i to razvitkom jezičnih resursa, alata i osobito sustava za strojno (potpomognuto) prevođenje. Za razvitak modula za prevođenje između dva jezika u jednome smjeru (npr. engleski‡hrvatski) u danas najraširenijem sustavu za strojno prevođenje SYSTRAN kojeg rabe i razna tijela EU-a, potrebno je 10 čovjek/godina. Hrvatska u ovome trenutku nema pet ljudi koji bi to obavili u dvije godine, nema ni dva čovjeka koji bi to obavili u pet godina, a veliko je pitanje ima li ijednoga koji bi to obavio u x godina. Uz postojeću potrebu prevođenja 60 000 000 riječi teksta iz Zajedničine pravne stečevina (Acquis communautaire) kao jednoga od uvjeta za pristupanje EU, pojavit će se i potreba za barem 200 stalnih prevoditelja koji će biti spremni živjeti i prevoditi EU dokumente u Bruxellesu, Strassbourgu, Den Haagu itd. na i sa hrvatskoga. Ukoliko u tome ne budemo imali pomoć strojnoga prevođenja, makar u obliku grubih, »neotesanih« prijevoda, teško će se ti dokumenti moći na vrijeme objavljivati i na hrvatskome.

Ukoliko ne razvijemo jezične tehnologije za hrvatski u nekoliko sljedećih godina, prijeti nam ozbiljna opasnost ne samo u tehnološkom nego i u civilizacijskom zaostajanju.

Marko Tadić

Vijenac 217

217 - 27. lipnja 2002. | Arhiva

Klikni za povratak