Murdekeele kirjakeelestaja

Organization
TÜ keeletehnoloogia uurimisrühm
Abstract
Eesmärgiks on mittestandardse keelekuju teisendamine standardseks kirjakeelseks. (Antud juhul murdekeele, aga sarnane lähenemine kõlbaks ka netikeele jaoks). Seejuures saab kasutada olemasolevat eesti keele töötlemise tarkvara, s.h. morfoloogilist analüsaatorit.

Eesti Rahvaluule Arhiiv sisaldab murde- ja argikeelseid kirjapanekuid ja salvestusi 19. sajandi teisest poolest kuni tänapäevani. Paljud neist tekstidest on käsikirjadest või helilintidelt dešifreeritud ning moodustavad - eelkõige žanripõhiseid tekstikogumeid. Suured tekstikogumid võimaldaksid printsiibis uurida nii folkloristikas aktuaalseid, folkloorse kommunikatsiooni, varieeruvuse ja loovuse kohta käivaid küsimusi, aga võimaldaks ka rakendada erinevaid keelestatistikal põhinevaid sisuanalüüsi meetodeid. Põhiliseks takistuseks selle juures on rahvaluule tekstikogumite suur keeleline variatiivsus. See takistab tegelikult isegi lihtsat sisupõhist tekstiotsingut (koer võib olla eri murretes ka koir või kuer, otsinguga see välja ei tule).
Tahame uurida võimalusi, kas või kuidas saaks keelelise varieeruvuse takistust automaatanalüüsi abil ületada.
Esimese sammuna seejuures pakume välja ülesandena murdekeelsete tekstide kirjakeelestaja loomise (teisendaks koir > koer; koire > koeri jne.).
Rahvaluulearhiivi tekstidel reeglina on ära määratud päritolukihelkond, mis võimaldab teksti murdeala juba küllalt suure tõenäosusega paika panna. Töömaterjaliks pakume välja eesti muinasjutud, mille puhul juba üksjagu tekste on väljaannete jaoks kirjakeelde tõlgitud, näidiseid saab vaadata muinasjutu akadeemiliste väljaannete tutvustusfailidest (http://www.folklore.ee/era/pub/files/imemuinasjutud_algus.pdf ja
http://www.folklore.ee/era/pub/files/imemuinasjutud2_valik.pdf) - mõlema faili puhul tuleb tekstideni jõudmiseks mööda kerida pikkadest sissejuhatustest. Automaatse kirjakeelestaja puhul pole muidugi eesmärgiks ladusalt loetava kirjakeelse lause loomine, vaid ikka eelkõige (suurema osa) sõnavormide teisendamine kirjakeelseteks.
Graduation Theses defence year
2016-2017
Supervisor
Heiki-Jaan Kaalep, Mari Sarv
Spoken language (s)
Estonian
Requirements for candidates
Level
Bachelor, Masters
Keywords
#eesti_keel #keele_automaattöötlus

Application of contact

 
Name
Heiki-Jaan Kaalep
Phone
E-mail
heiki-jaan.kaalep@ut.ee