Projekt
MEZZANINE
Temeljne raziskave za razvoj govornih virov in tehnologij za slovenski jezik (MEZZANINE – teMeljnE raZiskave Za rAzvoj govorNih vIrov in tehNologij za slovEnščino, J7-4642) je veliki temeljni raziskovalni projekt, ki ga financira Agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije in traja od oktobra 2022 do konca septembra 2025. Razvoj govornih virov in tehnologij zahteva premišljene pristope in temelji na jezikoslovnem in tehnološkem znanju. V projektu MEZZANINE ustvarjamo znanje, ki bo omogočilo, da bo ta razvoj učinkovit, ne izdelujemo pa samih govornih virov in tehnologij. Osredotočamo se na slovenski jezik, saj rešitve, razvite za tuje jezike in jezike z veliko govornimi viri, niso vedno neposredno prenosljive in primerne za slovenski jezik.
Projekt MEZZANINE je pri ustvarjanju znanja, potrebnega za razvoj govornih virov in tehnologij za slovenščino, osredotočen na štiri vsebinska področja.
Govorni viri v jezikoslovju in tehničnih znanostih
Prvi vsebinski sklop raziskuje, katere vrste govornih podatkov glede na obstoječe vire najbolj potrebujemo ter kako jih čim bolj učinkovito in avtomatizirano zbirati in zapisovati. Zbiranje govornih podatkov je v primerjavi s pisnimi veliko bolj zamudno in zahtevno. V projektu MEZZANINE sodelavci iz vseh devetih sodelujočih institucij, ki delamo v raznovrstnih znanstvenih disciplinah, raziskujemo: (1) kakšne potrebe po govornih podatkih imajo različne znanstvene vede (od dialektologije, leksikografije, skladnje prek pragmatike do govornih tehnologij); (2) kako učinkovito vključiti občane v zbiranje podatkov; (3) katere metode k razpoznavanju govora uporabiti, da bi lahko posnetke govora čim bolj učinkovito avtomatsko zapisovali.
Narečna variabilnost
Drugi vsebinski sklop raziskuje bogastvo različnih glasov v slovenskih narečjih. Govorjena slovenščina v raznih regijah Slovenije in zamejstva pozna veliko več različnih glasov, kot jih opisuje slovenska slovnica za zborni jezik. V projektu MEZZANINE so slovenski dialektologi pod vodstvom Inštituta Frana Ramovša za Slovenski jezik pri ZRC SAZU združili moči, da bi pripravili pregled prostorske razporeditve narečnih glasov in pripravili optimalen nabor glasov, primeren za uporabo v avtomatskem razpoznavanju govora za slovenska narečja.
Segmentacija in označevanje govora
Tretji vsebinski sklop raziskuje označevalne sheme in postopke avtomatskega označevanja govora. V govoru nimamo končnih ločil, da bi lahko na podlagi teh določili konec povedi. Naletimo na besede, ki imajo drugačne lastnosti kot v pisni rabi (na primer člen ‘te’ v zvezi, kot je ‘kaj te jaz vem’) ali iz pisne rabe niso poznane (npr. mhm, betežen). Stavki in povedi so pogosto nepopolni, govorci se popravljajo in delajo premore. Izjave izrekajo z določenim namenom. V projektu MEZZANINE jezikoslovci s Fakultete za elektrotehniko, računalništvo in informatiko Univerze v Mariboru in jezikovni tehnologi iz Instituta Jožef Stefan razvijamo označevalne sheme, na njihovi osnovi označene govorne podatke in postopke za avtomatsko označevanje: (1) osnovnih enot govora, kot izhajajo iz prozodije govora (intonacija, ton, tempo, jakost); (2) samopopravljanja in obotavljanja v govoru; (3) govoru prilagojenega avtomatskega označevanja osnovnih oblik besed, njihovih oblikoslovnih lastnosti in skladenjskih razmerij v stavku/povedi; (4) izraženega namena izjave oz. dialoškega dejanja, ki je lahko sporočiti informacije, sporočiti mnenje, izraziti občutenje, pripraviti sogovornika ali obvezati sebe k nekemu dejanju, urejati medsebojne odnose ali urejati potek govora.
Govorjena leksika
Četrti vsebinski sklop razvija z avtomatskimi metodami podprt postopek, po katerem se lahko dodajajo podatki o govorjenem besedju v slovenske jezikovne vire oz. v Digitalno slovarsko bazo za slovenščino, ki je osrednji vir za različne slovarje. Jezikoslovci in jezikovni tehnologi iz Centra za jezikovne vire in tehnologije Univerze v Ljubljani raziskujejo načine, kako iz referenčnega govornega korpusa Gos čim bolj učinkovito avtomatsko izluščiti besedje, ki v pisnih korpusih za slovenščino ni prisotno ali se razlikuje po kakšnih jezikoslovnih lastnostih. Poseben poudarek je namenjen avtomatski obdelavi glasovne podobe besedja, da bi se lahko v slovarje dodajala informacija o dejanski izreki besed, kakršna je značilna za vsakdanji govor.
Rezultati projekta bodo omogočili bolj učinkovit nadaljnji razvoj govornih virov in tehnologij za slovenski jezik, hkrati pa prinesli nova znanja o značilnostih govorjene slovenščine in govorjenega jezika nasploh.
Govorni viri dokumentirajo govorjeno rabo jezika. To so lahko baze s posnetki govora v različnih situacijah, od medijev, spleta in parlamenta do intervjujev in priložnostnih pogovorov. Govor na posnetkih se običajno zapiše, pogosto pa tudi dodatno označi, na primer z osnovnimi oblikami (lema), besednimi vrstami (samostalnik, glagol itd.), oblikoslovnimi lastnostmi (spol, število, oseba itd.), skladenjskimi razmerji (povedek, osebek itd.), imenskimi entitetami (lastna imena) in drugimi jezikoslovnimi informacijami. Prav tako so popisane informacije o govorcu (spol, starost itd.) in zvoku (prostor snemanja, kakovost posnetka, snemalna oprema itd.). Taka baza se lahko uporabi za spoznavanje značilnosti govora in njegov opis v slovarjih ali slovnici ter za razvoj govornih tehnologij.
Govorne tehnologije so računalniška orodja, ki se nanašajo na govor. Najbolj prepoznavno tovrstno orodje je razpoznavalnik govora, ki govor zapiše. Taka storitev je na primer zelo uporabna za narekovanje, avtomatsko podnaslavljanje video vsebin, za avtomatsko iskanje po zvočnih arhivih ipd. Podobno razširjeno orodje je sintetizator govora, ki zapisano besedilo prebere. Zelo uporabna storitev je tudi prevajanje govora v govor ali možnost govorne komunikacije z napravami oz. pogovora z računalnikom.