Vijenac 173

Informatika

Povratak u budućnost

Razgovor s Internetom

Razgovor s Internetom

Pristup i interakcija s internetskim sadržajima putem govora

Prema ocjenama brojnih stručnjaka tempo širenja Interneta svakako u mnogome ovisi i o jednostavnosti izvedbe uređaja koji se rabi za pristup Internetu, odnosno nekim konkretnim sadržajima. Uporaba računala ili uređaja koji u sebi imaju ugrađeno računalo opremljenih posebnim korisničkim sučeljem trebala bi osigurati maksimalnu jednostavnost rada. Sva rješenja zasnovana na posebnom uređaju pokazala su se manje ili više uspješnima u pojedinim segmentima primjene. Praksa je pokazala da se bez obzira na uspješnost spomenutih rješenja u netehnički orijentiranih korisnika, koji su velika većina u ukupnoj populaciji, javlja stanovita psihološka barijera prema bilo kojoj vrsti uređaja koji imaju veze s informatičkim tehnologijama. Čini se da je taj problem moguće riješiti na jedan jedini mogući način, a to je omogućiti pristup i interakciju s internetskim sadržajima posredovanjem uređaja koji prihvaća ta populacija korisnika. Jedan od tih uređaja je svakako običan telefonski aparat.

Ograničenja telefona

Telefonski aparat ima ograničene mogućnosti za prezentaciju informacija, koje se svode na to da je informacije potrebno pretvoriti u govorni zvučni oblik, odnosno moguća su svega dva modaliteta interakcije, i to pomoću brojčanih tipki koje se nalaze na aparatu, odnosno govorom. Navedena ograničenja svakako sužavaju područja primjene, no postoji niz situacija u životu kada je ta razina komunikacije u potpunosti dostatna. To su ponajprije mogućnost preslušavanja poruka elektronske pošte, razne vrste servisnih informacija, rezervacije avionskih karata, obavljanje jednostavnih financijskih transakcija i sl.

Bez obzira na ta jednostavno nepremostiva ograničenja i dileme o praktičnoj vrijednosti cijeloga rješenja, u ovom trenutku praktično ne postoji ni jedna kompanija u svijetu što se bavi izradom tehnoloških rješenja za Internet koja ne nudi rješenje za pristup i interakciju s internetskim sadržajima putem Interneta.

Sva rješenja raspoloživa na tržištu predviđaju posebni govorni poslužitelj (speech server), koji zapravo služi kao posrednik između korisnika i web-poslužitelja. Konkretno, korisnik biranjem broja na telefonskom aparatu uspostavlja vezu s govornim poslužiteljem, koji mu šalje glasovnu poruku na željenom jeziku o informacijama koje mu stoje na raspolaganju. Na raspolaganju su dva moguća načina za odgovor na tu poruku, odnosno za interakciju s govornim poslužiteljem. Prvi je pritisak na jednu od numeričkih tipki koje se nalaze na svakom telefonskom aparatu, dok drugi, znatno fleksibilniji, ali tehnološki neusporedivo kompleksniji, razgovijetno izgovara ključnu riječ, koju je govorni poslužitelj kadar prepoznati. Po primitku odgovora, govorni ga server analizira i ukoliko je analiza bila uspješna uspostavlja vezu s web-poslužiteljem te mu šalje naredbu kojom se dohvaća željeni sadržaj, praktično jednaku onoj koju bi poslao računalni program za pregledavanje internetskih sadržaja — web-preglednik (browser). Web--poslužitelj dakle odgovara na taj zahtjev kao i na bilo koji drugi zahtjev tako što šalje željeni sadržaj u standardnom tekstualnom obliku. Govorni poslužitelj prima taj sadržaj te ga pretvara u glasovnu poruku koju korisnik može čuti.

Tehnološki problemi

Za konkretnu izvedbu tog relativno jednostavnog načina rada potrebno je riješiti niz tehnoloških problema. Prvi je od njih postupak pretvaranja tekstualnoga zapisa u govornu poruku (Text to speech — TTS). Sagledaju li se sva postignuća na području obrade govora na računalu, može se reći kako se na ovom području najdalje došlo, tako da postojeća rješenja nude vrlo prihvatljivu kvalitetu govornih poruka. Drugi znatno teži problem jest automatsko prepoznavanje govora (automatic speech recognition — ASR), odnosno pretvaranje govorne poruke koju šalje korisnik preko telefona u zapis razumljiv računalu. Taj je problem tek djelomično riješen, tako da su današnji sustavi dosegnuli prihvatljivu razinu točnosti prepoznavanja tek na razini pojedinačno izgovorenih riječi. Dodatna je poteškoća vezana na prepoznavanje govora da je za taj postupak potrebno vrlo brzo računalo, tako da je izvedba govornoga servera koji istodobno mora voditi dijalog sa stotinama korisnika izniman problem. Obično se izvedbe govornih poslužitelja koji prepozaju govor svode na računala posebne namjene, čija je cijena iznimno visoka.

Predstavljeni sustavi zasnovani na govornom poslužitelju, posebno u izvedbi koja podržava prepoznavanje govora, ulaze u dnevnu uporabu kao dodatna usluga koju nude web-portali. Zanimljivo je da se primjenjuju oba modaliteta interakcije. Tako primjerice prvi modalitet interakcije koji zasnovan na numeričkim tipkama rabe web-portali poznatih internetskih tvrtki kao što su Yahoo! Inc i AOL. Drugi modalitet zasnovan na prepoznavanju govora rabe primjerice manje poznati web-portali kao što su Tellme.com i BeVocal.com, koji su, čini se, i pokrenuti kako bi ponudili novu mogućnost pristupa i interakcije s internetskim sadržajima. Govorni poslužitelj u oba spomenuta web-portala nudi mogućnost prepoznavanja nekoliko desetaka riječi na engleskom jeziku i orijentirani su na tržište u SAD.

Velika ulaganja

Prije nekoliko dana tvrtka Tellme.com izvijestila je javnost kako su na burzi putem prodaje dionica uspjeli prikupiti čak 125 milijuna dolara kapitala, no iz toga podatka još dokraja nisu jasni motivi investitora, odnosno da li je razlog za ulaganje upravo mogućnost glasovne komunikacije s Internetom ili tek pragmatičan zaključak da valja ulagati u svaku novu tehnologiju vezanu na Internet jer se to do sada pokazalo isplativim. Modalitet interakcije numeričkim tipkama čini se ipak prijelaznim rješenjem, tako da ispada kako budućnost ove nove vrste internetske usluge uvelike ovisi o daljem napretku tehnologije za prepoznavanje govora. Ne bi bilo veliko iznenađenje da se ispostavi kako je i komunikacija zasnovana na prepoznavanju ključnih riječi također prijelazno rješenje. Tek potpuna govorna komunikacija, koja se u računalnom žargonu naziva kontinuirani govor bit će pravo i konačno rješenje. To pak navodi na barem u ovom trenutku pomalo nevjerojatan zaključak kako će onda u tom slučaju biti moguće voditi stanovit oblik dijaloga s govornim poslužiteljem kako bi se dobila željena informacija. Dosadašnja nas iskustva uče kada su u pitanju računalne tehnologije, ono što je danas pomalo nevjerojatno, već za koju godinu postaje uobičajeno.

Dodatne informacije o tehnološkim rješenjima koja omogućavaju pristup i interakciju s internetskim sadržajima putem govora raspoložive su preko sljedećih hiperveza:

http://www.spechworks.com/

http://www.myaudiopoint.com/ http://www.speklink.com/

http://www.lucent.com/speech/

http://www.tellme.com/

http://www.bevocal.com/

Slaven Batnožić

Vijenac 173

173 - 19. listopada 2000. | Arhiva

Klikni za povratak