Projektni sklopi
Projekt MEZZANINE je razdeljen v štiri vsebinske delovne sklope, vsak od teh pa še naprej v dve do štiri aktivnosti. Raziskave v vsaki aktivnosti usmerjajo zastavljena izhodiščna raziskovalna vprašanja. V vsakem delovnem sklopu sodelujejo strokovnjaki iz jezikoslovja in strokovnjaki iz tehničnih ved.
DS1: Govorni viri v jezikoslovju in tehničnih znanostih
Aktivnosti
Raziskovalna vprašanja
A1.1-I
Govorni viri v jezikoslovju in tehničnih znanostih
RV1.1.1
Kakšne so potrebe različnih jezikoslovnih in tehničnih znanosti glede govornih virov?
RV1.1.2
Kako dobro so obstoječi referenčni govorni korpusi uravnoteženi glede na zajete govorne zvrsti?
A1.2-I
Prednosti in slabosti različnih tehnik snemanja
RV1.2.1
Katere tehnike snemanja govora se uporabljajo za zbiranje govornih podatkov in kakšne so značilnosti podatkov, zbranih s posamezno tehniko?
RV1.2.2
Kakšni so potenciali množičenja govornih podatkov v majhnih skupnostih in kako lahko zadovolji potrebe različnih znanstvenih disciplin?
RV1.2.3
Katere so pravne omejitve pri snemanju govora ali uporabi obstoječih posnetkov govora iz različnih virov in kako jih upoštevati?
A1.3-T
Nizkocenovni domensko specifični govorni podatki za učenje razpoznavalnika govora
RV1.3.1
Kako naj bo sestavljeno nenadzorovano ali delno nadzorovano učenje razpoznavalnika govora, če so na voljo zgolj govorni podatki, omejeni na določeno področje?
RV1.3.2
Kakšen je optimalen pristop za izdelavo novih govornih podatkov z vidika razpoložljivih nizkocenovnih govornih podatkov?
A1.4-T
Učinkovitost prenosa znanja pri različnih aktivnostih razpoznavanja govora/govorca
RV1.4
Katere so aktivnosti razpoznavanja govora z najmanjšo možnostjo prenosa znanja iz jezikov z velikim obsegom jezikovnih virov v slovenščino?
DS2: Narečna variabilnost
Aktivnosti
Raziskovalna vprašanja
A2.1-L
Jezikovnogeografska analiza nestandardnih fonemov
RV2.1
Kako zanesljiva je veljavna slovenska narečna fonetična transkripcija?
A2.2-L
Model prostorske razporeditve osnovnih narečnih območij nestandardnih fonemov
RV2.2
Kako določiti prostorsko razširjenost nestandardnih fonemov?
A2.3-L
Priprava diasistemskih kontrastivnih tabel
RV2.3
Kako izdelati prostorski model za pripravo diasistemskih narečno-knjižnih kontrastivnih tabel fonemov?
A2.4-I
Opredelitev optimalnega nabora slovenskih fonemov za razpoznavanje govora
RV2.4
Kako opredeliti optimalen nabor slovenskih fonemov, uravnotežen med standardnimi in narečnimi različicami fonemov?
DS3: Segmentacija in označevanje govora
Aktivnosti
Raziskovalna vprašanja
A3.1-I
Osnovne enote govora
RV3.1.1
Ali se ročno označeni govorni odseki v slovenskih govornih virih ujemajo s prozodičnimi enotami?
RV3.1.2
Kako dobro se ročno označeni govorni segmenti v slovenskih govornih virih ujemajo s skladenjskimi enotami?
A3.2-I
Označevanje in modeliranje netekočnosti
RV3.2.1
Kakšna je ustrezna shema za označevanje netekočnosti v govornih korpusih?
RV3.2.2
Kateri pristop za avtomatsko prepoznavanje netekočnosti v govornih korpusih je najprimernejši?
A3.3-I
Oblikoskladenjsko označevanje, lematizacija in skladenjsko razčlenjevanje
RV3.3.1
Kako lahko označene netekočnosti izboljšajo jezikovno označevanje?
RV3.3.2
Kako lahko učne podatke iz drugih področij in modalnosti učinkovito uporabimo za procesiranje govorjenega jezika?
RV3.3.3
Kakšen je vpliv predstavitve jezikovnega vnosa na rezultate jezikovnega označevanja?
A3.4-I
Označevanje dialoških dejanj
RV3.4.1
Kako jasna, ustrezna in informativna je shema GORDAN v primerjavi s standardom ISO 24617-2?
RV3.4.2
Kako razširiti nabor oznak iz ISO 24617-2, da bi bile te ustreznejše in bolj informativne?
DS4: Govorjena leksika
Aktivnosti
Raziskovalna vprašanja
A4.1-I
Kanonične oblike (nestandardne) govorjene leksike
RV4.1.1
Katere različnice (različne besede v korpusu), ki razlagajo enake ali podobne pojave, so bile različno standardizirane v obstoječih govornih jezikovnih virih?
RV4.1.2
Kako ustrezno kategorizirati analizirane heterogeno interpretirane korpusne različnice in kako so kanonične oblike razvrščene po različnih kategorijah različnic?
RQ4.1.3
Kako so kanonične oblike in različnice vključene v leksikon ali povezane s podatki v lekiskonu?
A4.2-I
Leksikografski opis (nestandardnega) govorjenega jezika
RV4.2.1
Kaj je značilno za govorjeno leksiko v primerjavi z zapisanim jezikom in kako lahko te značilnosti analiziramo avtomatsko (za leksikografske namene)?
RV4.2.2
Kako je pomenski opis govorjenega jezika vključen v pomenske (leksikografske) vire za slovenščino?