arvutiteaduse instituudi lõputööde teemade register


Murdekeele kirjakeelestaja
Organisatsiooni nimiTÜ keeletehnoloogia uurimisrühm
KokkuvõteEesmärgiks on mittestandardse keelekuju teisendamine standardseks kirjakeelseks. (Antud juhul murdekeele, aga sarnane lähenemine kõlbaks ka netikeele jaoks). Seejuures saab kasutada olemasolevat eesti keele töötlemise tarkvara, s.h. morfoloogilist analüsaatorit.

Eesti Rahvaluule Arhiiv sisaldab murde- ja argikeelseid kirjapanekuid ja salvestusi 19. sajandi teisest poolest kuni tänapäevani. Paljud neist tekstidest on käsikirjadest või helilintidelt dešifreeritud ning moodustavad - eelkõige žanripõhiseid tekstikogumeid. Suured tekstikogumid võimaldaksid printsiibis uurida nii folkloristikas aktuaalseid, folkloorse kommunikatsiooni, varieeruvuse ja loovuse kohta käivaid küsimusi, aga võimaldaks ka rakendada erinevaid keelestatistikal põhinevaid sisuanalüüsi meetodeid. Põhiliseks takistuseks selle juures on rahvaluule tekstikogumite suur keeleline variatiivsus. See takistab tegelikult isegi lihtsat sisupõhist tekstiotsingut (koer võib olla eri murretes ka koir või kuer, otsinguga see välja ei tule).
Tahame uurida võimalusi, kas või kuidas saaks keelelise varieeruvuse takistust automaatanalüüsi abil ületada.
Esimese sammuna seejuures pakume välja ülesandena murdekeelsete tekstide kirjakeelestaja loomise (teisendaks koir > koer; koire > koeri jne.).
Rahvaluulearhiivi tekstidel reeglina on ära määratud päritolukihelkond, mis võimaldab teksti murdeala juba küllalt suure tõenäosusega paika panna. Töömaterjaliks pakume välja eesti muinasjutud, mille puhul juba üksjagu tekste on väljaannete jaoks kirjakeelde tõlgitud, näidiseid saab vaadata muinasjutu akadeemiliste väljaannete tutvustusfailidest (http://www.folklore.ee/era/pub/files/imemuinasjutud_algus.pdf ja
http://www.folklore.ee/era/pub/files/imemuinasjutud2_valik.pdf) - mõlema faili puhul tuleb tekstideni jõudmiseks mööda kerida pikkadest sissejuhatustest. Automaatse kirjakeelestaja puhul pole muidugi eesmärgiks ladusalt loetava kirjakeelse lause loomine, vaid ikka eelkõige (suurema osa) sõnavormide teisendamine kirjakeelseteks.
Lõputöö kaitsmise aasta2016-2017
JuhendajaHeiki-Jaan Kaalep, Mari Sarv
Suhtlemiskeel(ed)eesti keel
Nõuded kandideerijale
Tase Bakalaureus, Magister
Märksõnad #eesti_keel #keele_automaattöötlus
Kandideerimise kontakt
Nimi Heiki-Jaan Kaalep
Tel
E-mail heiki-jaan.kaalep@ut.ee


ati.study@lists.ut.ee