Projekt
MEZZANINE

Primat raziskav pisnega jezika zelo dobro služi praktičnim ciljem kultiviranja, standardizacije in poučevanja raznih oblik pisnega jezika. Vendar so različne rabe pisnega jezika večinoma regulirane in omejene, uporabniki jezika sledijo institucionalno določenim pravilom knjižnega jezika, njihovo jezikovno izražanje pa nadzorujejo še uredniki in lektorji.

Govorjeni jezik, zlasti spontano tvorjen, veliko bolje odraža človekovo naravno jezikovno vedenje, izpostavlja veliko raznolikost jezika na vseh jezikovnih ravninah, prinaša podatke za dodatne ravnine jezikovnega sistema (npr. fonološko in prozodično) in izkazuje oblike jezikovne rabe, ki v pisni rabi niso prisotne. Raziskovanje govorjenega jezika je za jezikoslovje nujno potrebno, če naj bi bilo poznavanje in razumevanje njegovega predmeta raziskovanja zares celovito.

Da bi lahko izvajali temeljne raziskave govorjenega jezika in spodbujali razvoj govornih tehnologij, je treba najprej nasloviti problem pomanjkanja govornih virov. Toda razvoj govornih virov ni samo vprašanje aplikativnega zbiranja podatkov, ampak odpira tudi vrsto temeljnih raziskovalnih vprašanj. Ta vprašanja bodo naslovljena v projektu MEZZANINE (teMeljnE raZiskave Za rAzvoj govorNih vIrov in tehNologij za slovEnščino), s fokusom na slovenskem jeziku.

Govorni viri so v primerjavi s pisnimi viri redki in slabo razviti, kar še posebej velja za majhne jezike, kot je slovenščina. V nacionalnem centralnem repozitoriju jezikovnih virov CLARIN.SI (https://www.clarin.si/repository/xmlui/) je na voljo zelo omejeno število govornih virov za slovenščino, medtem ko je velika večina virov in orodij razvita za pisni jezik. Gre predvsem za posledico dejstva, da ustvarjanje govornih virov zahteva bistveno več truda kot ustvarjanje pisnih virov, deloma pa tudi dejstva, da je bil pisni jezik skozi stoletja v središču zanimanja jezikoslovne vede, kjer ostaja tudi še danes.

Slabo razviti govorni viri onemogočajo poglobljene in širše veljavne raziskave govorjenega jezika. Pomanjkanje velikih govornih virov je problem v vseh disciplinah, od fonetike, fonologije in dialektologije do slovnice ali sociolingvistike. Raziskave govorjene slovenščine so bile doslej sporadične in omejene predvsem na discipline, kot sta fonetika s fonologijo in dialektologija, ki sta vedi, tipično usmerjeni k proučevanju govorjenega jezika, medtem ko je bila na drugih znanstvenih področjih govorjena slovenščina le izjemoma predmet proučevanja (Verdonik 2007; Krajnc Ivič 2009; Smolej 2012). Primat raziskav pisnega jezika zelo dobro služi praktičnim ciljem kultiviranja, standardizacije in poučevanja raznih oblik pisnega jezika. Vendar so različne rabe pisnega jezika večinoma regulirane in omejene, uporabniki jezika sledijo institucionalno določenim pravilom ustrezne rabe knjižnega jezika, njihovo jezikovno izražanje pa nadzorujejo še uredniki in lektorji. Govorjeni jezik, zlasti spontano tvorjen, veliko bolje odraža človekovo naravno jezikovno vedenje, izpostavlja veliko raznolikost jezika na vseh jezikovnih ravninah, prinaša podatke za dodatne ravnine jezikovnega sistema (npr. fonološko in prozodično) in izkazuje oblike jezikovne rabe, ki v pisni obliki niso prisotne. Raziskovanje govorjenega jezika je za jezikoslovje nujno potrebno, če naj bi bilo poznavanje in razumevanje njegovega predmeta raziskovanja zares celovito.

Nezadosten obseg govornih virov zavira tudi razvoj govornih tehnologij, kot sta avtomatsko razpoznavanje govora (ASR) ali sinteza govora (TTS), ki v digitalnih okoljih pridobivajo vse večji pomen. Govorne tehnologije so za jezike z majhnim številom govorcev, kot je slovenščina, manj razvite zaradi pomanjkanja ustreznih virov in manjšega zanimanja za majhne trge s strani glavnih globalnih akterjev na tem področju. Trenutno se jeziki, kot je slovenščina, soočajo z nedostopnostjo naprednih IT-aplikacij ali storitev z integriranimi govornimi tehnologijami.

Da bi lahko izvajali temeljne raziskave govorjenega jezika ali govornih tehnologij s pomembnim vplivom na razvoj znanosti, je treba najprej nasloviti problem pomanjkanja govornih virov, še posebej za jezike z malo govorci. Razvoj prosto dostopnih, odprtih govornih virov bo spodbudil tako raziskave govorjenega jezika in njegove rabe kot razvoj govornih tehnologij. Toda razvoj govornih virov ni samo vprašanje aplikativnega zbiranja podatkov, ampak odpira tudi vrsto temeljnih raziskovalnih vprašanj. Ta vprašanja bodo naslovljena v tem projektu, s fokusom na slovenskem jeziku.