Murdekeele kirjakeelestaja

Organisatsiooni nimi
TÜ keeletehnoloogia uurimisrühm
Kokkuvõte
Eesmärgiks on mittestandardse keelekuju teisendamine standardseks kirjakeelseks. (Antud juhul murdekeele, aga sarnane lähenemine kõlbaks ka netikeele jaoks). Seejuures saab kasutada olemasolevat eesti keele töötlemise tarkvara, s.h. morfoloogilist analüsaatorit.

Eesti Rahvaluule Arhiiv sisaldab murde- ja argikeelseid kirjapanekuid ja salvestusi 19. sajandi teisest poolest kuni tänapäevani. Paljud neist tekstidest on käsikirjadest või helilintidelt dešifreeritud ning moodustavad - eelkõige žanripõhiseid tekstikogumeid. Suured tekstikogumid võimaldaksid printsiibis uurida nii folkloristikas aktuaalseid, folkloorse kommunikatsiooni, varieeruvuse ja loovuse kohta käivaid küsimusi, aga võimaldaks ka rakendada erinevaid keelestatistikal põhinevaid sisuanalüüsi meetodeid. Põhiliseks takistuseks selle juures on rahvaluule tekstikogumite suur keeleline variatiivsus. See takistab tegelikult isegi lihtsat sisupõhist tekstiotsingut (koer võib olla eri murretes ka koir või kuer, otsinguga see välja ei tule).
Tahame uurida võimalusi, kas või kuidas saaks keelelise varieeruvuse takistust automaatanalüüsi abil ületada.
Esimese sammuna seejuures pakume välja ülesandena murdekeelsete tekstide kirjakeelestaja loomise (teisendaks koir > koer; koire > koeri jne.).
Rahvaluulearhiivi tekstidel reeglina on ära määratud päritolukihelkond, mis võimaldab teksti murdeala juba küllalt suure tõenäosusega paika panna. Töömaterjaliks pakume välja eesti muinasjutud, mille puhul juba üksjagu tekste on väljaannete jaoks kirjakeelde tõlgitud, näidiseid saab vaadata muinasjutu akadeemiliste väljaannete tutvustusfailidest (http://www.folklore.ee/era/pub/files/imemuinasjutud_algus.pdf ja
http://www.folklore.ee/era/pub/files/imemuinasjutud2_valik.pdf) - mõlema faili puhul tuleb tekstideni jõudmiseks mööda kerida pikkadest sissejuhatustest. Automaatse kirjakeelestaja puhul pole muidugi eesmärgiks ladusalt loetava kirjakeelse lause loomine, vaid ikka eelkõige (suurema osa) sõnavormide teisendamine kirjakeelseteks.
Lõputöö kaitsmise aasta
2016-2017
Juhendaja
Heiki-Jaan Kaalep, Mari Sarv
Suhtlemiskeel(ed)
eesti keel
Nõuded kandideerijale
Tase
Bakalaureus, Magister
Märksõnad
#eesti_keel #keele_automaattöötlus

Kandideerimise kontakt

 
Nimi
Heiki-Jaan Kaalep
Tel
E-mail
heiki-jaan.kaalep@ut.ee