Projektni sklopi

Projekt MEZZANINE je razdeljen v štiri vsebinske delovne sklope, vsak od teh pa še naprej v dve do štiri aktivnosti. Raziskave v vsaki aktivnosti usmerjajo zastavljena izhodiščna raziskovalna vprašanja. V vsakem delovnem sklopu sodelujejo strokovnjaki iz jezikoslovja in strokovnjaki iz tehničnih ved.

Govorni viri v jezikoslovju in tehničnih znanostih

Delovni sklop 1 (DS1)

Narečna
variabilnost

Delovni sklop 2 (DS2)

Segmentacija in
označevanje govora

Delovni sklop 3 (DS3)

Govorjena
leksika

Delovni sklop 4 (DS4)

DS1: Govorni viri v jezikoslovju in tehničnih znanostih

Aktivnosti

Raziskovalna vprašanja

A1.1-I
Govorni viri v jezikoslovju in tehničnih znanostih

RV1.1.1
Kakšne so potrebe različnih jezikoslovnih in tehničnih znanosti glede govornih virov?

RV1.1.2
Kako dobro so obstoječi referenčni govorni korpusi uravnoteženi glede na zajete govorne zvrsti?

A1.2-I
Prednosti in slabosti različnih tehnik snemanja

RV1.2.1
Katere tehnike snemanja govora se uporabljajo za zbiranje govornih podatkov in kakšne so značilnosti podatkov, zbranih s posamezno tehniko?

RV1.2.2
Kakšni so potenciali množičenja govornih podatkov v majhnih skupnostih in kako lahko zadovolji potrebe različnih znanstvenih disciplin?

RV1.2.3
Katere so pravne omejitve pri snemanju govora ali uporabi obstoječih posnetkov govora iz različnih virov in kako jih upoštevati?

A1.3-T
Nizkocenovni domensko specifični govorni podatki za učenje razpoznavalnika govora

RV1.3.1
Kako naj bo sestavljeno nenadzorovano ali delno nadzorovano učenje razpoznavalnika govora, če so na voljo zgolj govorni podatki, omejeni na določeno področje?

RV1.3.2
Kakšen je optimalen pristop za izdelavo novih govornih podatkov z vidika razpoložljivih nizkocenovnih govornih podatkov?

A1.4-T
Učinkovitost prenosa znanja pri različnih aktivnostih razpoznavanja govora/govorca

RV1.4
Katere so aktivnosti razpoznavanja govora z najmanjšo možnostjo prenosa znanja iz jezikov z velikim obsegom jezikovnih virov v slovenščino?

DS2: Narečna variabilnost

Aktivnosti

Raziskovalna vprašanja

A2.1-L
Jezikovnogeografska analiza nestandardnih fonemov

RV2.1
Kako zanesljiva je veljavna slovenska narečna fonetična transkripcija?

A2.2-L
Model prostorske razporeditve osnovnih narečnih območij nestandardnih fonemov

RV2.2
Kako določiti prostorsko razširjenost nestandardnih fonemov?

A2.3-L
Priprava diasistemskih kontrastivnih tabel

RV2.3
Kako izdelati prostorski model za pripravo diasistemskih narečno-knjižnih kontrastivnih tabel fonemov?

A2.4-I
Opredelitev optimalnega nabora slovenskih fonemov za razpoznavanje govora

RV2.4
Kako opredeliti optimalen nabor slovenskih fonemov, uravnotežen med standardnimi in narečnimi različicami fonemov?

DS3: Segmentacija in označevanje govora

Aktivnosti

Raziskovalna vprašanja

A3.1-I
Osnovne enote govora

RV3.1.1
Ali se ročno označeni govorni odseki v slovenskih govornih virih ujemajo s prozodičnimi enotami?

RV3.1.2
Kako dobro se ročno označeni govorni segmenti v slovenskih govornih virih ujemajo s skladenjskimi enotami?

A3.2-I
Označevanje in modeliranje netekočnosti

RV3.2.1
Kakšna je ustrezna shema za označevanje netekočnosti v govornih korpusih?

RV3.2.2
Kateri pristop za avtomatsko prepoznavanje netekočnosti v govornih korpusih je najprimernejši?

A3.3-I
Oblikoskladenjsko označevanje, lematizacija in skladenjsko razčlenjevanje

RV3.3.1
Kako lahko označene netekočnosti izboljšajo jezikovno označevanje?

RV3.3.2
Kako lahko učne podatke iz drugih področij in modalnosti učinkovito uporabimo za procesiranje govorjenega jezika?

RV3.3.3
Kakšen je vpliv predstavitve jezikovnega vnosa na rezultate jezikovnega označevanja?

A3.4-I
Označevanje dialoških dejanj

RV3.4.1
Kako jasna, ustrezna in informativna je shema GORDAN v primerjavi s standardom ISO 24617-2?

RV3.4.2
Kako razširiti nabor oznak iz ISO 24617-2, da bi bile te ustreznejše in bolj informativne?

DS4: Govorjena leksika

Aktivnosti

Raziskovalna vprašanja

A4.1-I
Kanonične oblike (nestandardne) govorjene leksike

RV4.1.1
Katere različnice (različne besede v korpusu), ki razlagajo enake ali podobne pojave, so bile različno standardizirane v obstoječih govornih jezikovnih virih?

RV4.1.2
Kako ustrezno kategorizirati analizirane heterogeno interpretirane korpusne različnice in kako so kanonične oblike razvrščene po različnih kategorijah različnic?

RQ4.1.3
Kako so kanonične oblike in različnice vključene v leksikon ali povezane s podatki v lekiskonu?

A4.2-I
Leksikografski opis (nestandardnega) govorjenega jezika

RV4.2.1
Kaj je značilno za govorjeno leksiko v primerjavi z zapisanim jezikom in kako lahko te značilnosti analiziramo avtomatsko (za leksikografske namene)?

RV4.2.2
Kako je pomenski opis govorjenega jezika vključen v pomenske (leksikografske) vire za slovenščino?