Vijenac 158

Prilog

Hrvatski računalni korpusi

Marko Tadić

Hrvatski računalni korpusi

Obrada teksta pojavila se kao jedno od značajnijih područja primjene računala ubrzo nakon njihova otkrića. Ta je primjena proširena i na obradu prirodnoga jezika (Natural language processing) gdje su računala omogućila sustavna istraživanja i testiranja gramatičkih i leksikonskih modela tako da je već polovicom pedesetih godina entuzijazam velikog broja, pretežito američkih, lingvista i informatičara bio toliki da su prognozirali mogućnost potpunoga strojnog prevođenja u roku od nekoliko godina. Vrijeme je to procvata racionalističkog i mentalističkog teorijskog pogleda Noama Chomskoga koji je donio »revoluciju« u lingvističkoj misli, ali istodobno je utjecao na isključivanje empirijske lingvističke metodologije iz središta istraživačkoga interesa. Već smo tada u interesima i teorijskim promišljanjima s tog područja za hrvatski imali nezaobilazne tekstove koje su napravili npr. Bulscú László i Rudolf Filipović. Polet prvotnoga računalnoga »tretmana« prirodnoga jezika trajao je do glasovitog ALPAC izvještaja kojim je 1966. američka administracija nezadovoljna neadekvatnim rezultatima i preoptimističnim prognozama ukinula dotada obilnu potporu istraživanja s područja strojnoga prevođenja.

Razlog neuspjehu prije svega valja potražiti u preambiciozno postavljenom cilju u obliku potpunoga strojnog prevođenja s jednog prirodnog jezika na drugi, ali i u neodgovarajućoj količini stvarnih, potvrđenih jezičnih podataka do kojih se nije dolazilo zbog metodološke ograničenosti na gramatičke modele, a moglo se doći jednostavnim usustavljivanjem i obradbom jezične građe u obliku računalno podržanih korpusa. Korpus kao lingvističko istraživačko sredstvo moralo je, kao što je to postalo danas, biti uporabljeno za uvid kako u frekvenciju jezičnih jedinica tako u sve one pojedinačne varijacije kojima su u tekstovnoj okolini jezične jedinice podložne.

Unatoč »racionalističkom valu« Chomskoga, postojao je krug tvrdokornih lingvističkih empirista koji su u prvoj polovici šezdesetih počeli sastavljati prve, značajne korpuse - tadašnja je »čarobna granica« korpusnoga opsega bila milijun riječi. Premda je u to vrijeme imao oko milijun skupljenih riječi engleskoga teksta, Johnu Sinclairu, škotskome jezikoslovcu iz Birminghama, W. N. Francis i H. Kučera 1967. su, bržom objavom rezultata svojih istraživanja na jednomilijunskom Brown korpusu završenom 1964, preuzeli prvenstvo. Slijedili su potom LOB korpus britanskoga engleskoga, Kholapur korpus indijskoga engleskoga itd.

Godine 1967. računalnom je korpusnom metodologijom obrađen i prvi hrvatski tekst - Osman Ivana Gundulića frekvencijski je obradio i konkordancijama popratio Željko Bujas za svog boravka u Austinu (Texas). Slijedio ga je ubrzo i Krležin Povratak Filipa Latinovića, a potom i Marulićeva Suzana.

Po povratku iz SAD, Bujas je od 1968. do 1971. sudjelovao na značajnom projektu kontrastivnoga proučavanja hrvatskoga i engleskoga pod vodstvom R. Filipovića gdje se po prvi put u svjetskoj lingvistici pojavljuje uporaba računalnih korpusa (posebice paralelnih korpusa) u kontrastivnim proučavanjima. Taj je projekt snažno metodološki utjecao na sve ostale projekte u Zavodu za lingvistku Filozofskoga fakulteta Sveučilišta u Zagrebu tako da se 1970. počinje s projektom Kompjutorska analiza tekstova stare hrvatske književnosti na kojem je uz Bujasa sudjelovao i Milan Moguš. Do 1981. konkordirana su hrvatska Marulićeva djela, djela Barne Karnarutića, Zoranićeve Planine, Pelegrinovićeva Jejupka, djela Hanibala Lucića i Petra Hektorovića, Benetovićeva Hvarkinja, Ranjinin zbornik, Držićeve komedije, djela Ivana Bunića Vučića, Vitezovićeva djela, Kanižlićeva Sveta Rožalija, komedije Tituša Brezovačkog, Razvod istarski i Krležine Balade Petrice Kerempuha.

Godine 1976. u Zavodu se pod vodstvom Milana Moguša počeo sastavljati Korpus suvremenog hrvatskog književnog jezika s primarnim ciljem sastavljanja prvog jednomilijunskoga hrvatskog korpusa znanim i pod imenom Mogušev korpus. Projekt je to koji je, kad je zamišljen, predstavljao prvi referentni, uravnoteženi korpus za hrvatski jezik (obuhvaća tekstove od 1935. do 1978. u pet potkorpusa razvrstanih prema žanrovima) a bio je tada i prvi milijunski korpus nekog slavenskog jezika. Njegov najznačajniji rezultat je Hrvatski čestotni rječnik (Moguš, Bratanić, Tadić) objavljen stjecajem raznih, pa i ratnih, okolnosti tek 1999. Postojanje toga korpusa od nezaobilazne je važnosti za konkretnu, provjerljivu usporedbu stanja leksika nakon 1990. prema leksiku između 1935. i 1978.

Zavod za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu, danas, ponajprije na temelju svoje već trodesetljetne tradicije obradbe hrvatskih korpusa, zapravo referentna institucija za korpusna istraživanja hrvatskoga jezika, prihvatio se 1996. sastavljanja Hrvatskoga nacionalnog korpusa (HNK) po uzoru na nacionalne korpuse drugih jezika (npr. Britanski nacionalni korpus, Češki nacionalni korpus, Madžarski nacionalni korpus, slovenski FIDA korpus itd.). Sam je HNK složen od dvije sastavnice:

1) 30-milijunski korpus suvremenoga hrvatskoga jezika (30M) kao reprezentativni, uravnoteženi korpus s tekstovima nastalim 1990. ili kasnije;

2) Hrvatski tekstovni elektronski arhiv (HETA) koji čini neuravnotežena zbirka korpusa s tekstovima starijim od 1990. ili tekstovima koji ne odgovaraju reprezentativnosti 30M, a sami su dovoljno veliki (nekoliko milijuna pojavnica).

HNK je u ovom trenutku u probnoj inačici (nešto više od 10 milijuna riječi) koja se neprestano dopunjuje novim tekstovima.

Kako je kod 30M reprezentativnost za cjelinu standardnoga hrvatskoga jezika jedan od osnovnih preduvjeta, pažljivo je razrađena njegova struktura po potkorpusima, žanrovima, područjima iz kojih se biraju tekstovi. Budući da kod nas nije bilo sustavnih socioloških istraživanja koja bi dala statističke podatke o produkciji i recepciji tekstovnih žanrova (osim istraživanja čitanosti pojedinih vrsta novina/magazina npr. agencije Gral ili Puls), a veliko je pitanje hoće li ih biti sveobuhvatnih u bližoj budućnosti, djelomice su, ponajprije zbog kulturno-civilizacijske sličnosti, preuzeta češka iskustva s područja strukturiranja korpusa. To je rezultiralo većom zastupljenošću knjiga i magazina nego što to pokazuju domaća istraživanja čitanosti.

Struktura 30M korpusa

1. Informativni tekstovi 76 %

1.1. novine 38 %

1.1.1. dnevnici 22 %

1.1.2. tjednici 10 %

1.1.3. dvotjednici 3 %

1.1.4. sporadičnici 3 %

1.2. časopisi 18 %

1.2.1. tjednici 10 %

1.2.2. dvotjednici 2 %

1.2.3. mjesečnici 3 %

1.2.4. višemjesečnici 3 %

1.3. knjige 20 %

1.3.1. publicistika 7 %

1.3.2. struke 5 %

1.3.3. znanost 8 %

2. Imaginativni tekstovi 22 %

2.1. proza 22 %

2.1.1. romani 13 %

2.1.2. pripovijetke 8 %

2.1.3. putopisi, dnevnici 1 %

3. Miješani tekstovi 2 %

3.1. imaginativno-faktografska djela 1 %

3.2. eseji, govori 1 %

Do kraja 2000. 30M korpus morao bi biti zaokružen čime će se doći do nezaobilaznoga izvora podataka o suvremenome hrvatskome jeziku kako za stručnjake - jezikoslovce, leksikografe, logopede, obje vrste lektora -u nas i u inozemstvu (zamislite samo jezičnu građu na kojoj se može dobiti statistički relevantna tipologija jezičnih grešaka i problematičnih mjesta što samo po sebi predstavlja osnovni predložak za lektorske zahvate), tako i za sve amatere (!ljubitelje) hrvatske riječi. Nakon godine 2000. valja nastaviti prema veličini od 100 milijuna pojavnica što danas predstavlja mjeru nacionalnih korpusa (BNC, CNC, FIDA, PNC, MNC svi su planirani na tu veličinu).

Hrvatski je nacionalni korpus, za razliku od starijih hrvatskih korpusa koji se pretežno nalaze u papirnatom obliku, već sad dostupan putem Interneta (www.hnk.ffzg.hr) te, za razliku od ostalih nacionalnih korpusa, slobodno i besplatno pretraživ. Time je postignut jedan od osnovnih ciljeva korpusH uopće a to je slobodno, udaljeno, neograničeno pretraživanje jezične građe. HNK je jednako pretraživ iz Zagreba, Splita, Osijeka, Rijeke, Dubrovnika, Pečuha, Željeznog, New Yorka, Montevidea, Johannesburga, Osake i Sydneyja. Analiza pristupa pokazuje da su, uz Filozofski fakultet u Zagrebu i Institut za hrvatski jezik i jezikoslovlje, najveći korisnici HNK slavistički odsjeci stranih sveučilišta npr. Mannheim, Berlin, Tübingen, Münster, Cornell, Harvard itd. Na žalost, ne znamo je li samo riječ o lektorima hrvatskoga jezika i njihovim studentima ili uz njih i strani slavisti rabe HNK kao vrelo podataka o hrvatskome jeziku. Na temelju broja pristupa koji u 1999. broji preko 120.000 posjeta čini se da tako tehnološki suvremeno koncipiran i postavljen projekt može učiniti više za svijest o samostalnosti i posebnosti hrvatskoga jezika u svijetu nego većina diskusija, peticija, primjedaba i pisma kojima naši kroatisti, nažalost, počesto bez željenih rezultata, pokušavaju već deset godina djelovati u svjetskoj slavistici.

Kad je riječ o ostalim korpusnim projektima, valjalo bi svakako spomenuti još i Hrvatsko-slovenski paralelni korpus kao i Hrvatsko-engleski paralelni korpus koji se također sastavlja u Zavodu za lingvistiku. Korpusi su to kojima je namjena pronajprije usmjerena prema višejezičnoj leksikografiji, izgradnji terminoloških baza ali i kontrastivom proučavanju obaju jezika kao i istraživanjima s područja strojno potpomognutoga prevođenja. S kretanjem prema EU, Hrvatskoj predstoji prevođenje nevjerojatnog broja zakonskih i tekstova raznih regulativa (Slovenija se sudarila sa 200.000 stranica prijevoda u nekoliko godina) što se jednostavno mora obaviti. To učiniti bez pomoći računala kao inteligentnog prevodilačkoga alata jednostavno nije moguće ne samo zbog kvalitete prijevoda nego i zbog vremena koje nam stoji na raspolaganju. Stoga su se u Zavodu već počeli razvijati paralelni korpusi ne bi li pružili potrebne jezične resurse za kvalitetnu izvedbu toga posla.

Globalno gledano, ukoliko se za neki prirodni jezik u najkraćem mogućem roku ne razviju temeljni jezični resursi, a to su korpusi i elektronski rječnici, i ne omogući njihova uporaba u najširoj produkciji i recepciji teksta, koji se sve više pojavljuje u elektronskome (digitalnom) obliku kao e-tekst, taj će jeziku dospjeti u stanje funkcionalne nepismenosti. Ukoliko za neki prirodni jezik u digitalnim komunikacijskim kanalima 21. stoljeća (npr. e-pošta, e-trgovina itd.) ne bude tom jeziku primjerenih jezičnih alata, sudionici će u komunikaciji, zbog same potrebe za komuniciranjem, pribjeći uporabi drugoga jezika, najčešće engleskoga što će rezultirati »e-nepismenošću«. Ukoliko ne bismo htjeli da ta sudbina zadesi hrvatski, valja nam poraditi na razvijanju upravo tih jezičnih alata u okviru višejezičnoga informatičkog društva koje nam predstoji.

Marko Tadić

Vijenac 158

158 - 24. ožujka 2000. | Arhiva

Klikni za povratak