Konteksti teisendused loomuliku keele klasterdamiseks
Nimi
Robert Roosalu
Kokkuvõte
Loomulikust keelest sisuline arusaam on oluline samm üldise tehisintellekti suunas. Osa sellest võib olla sõnade ja dokumentide teisendusel vektorruumi. Võtsime kasutusele põhilised meetodid selles vallas ja implementeerisime suure hulga erinevaid klasterdamise katseid eesti keele koondkorpusest eraldatud sõnade kontekstidel. Peale 20 tuhande katse analüüsimist leidsime, et skip-gram sõnavektorid koos spektraalklasterdusega annavad parimaid tulemusi. Seda nii sõnavektorite keskmistamisel, kui kasutades neid sisendina rekurrentsetesse autoenkooderitesse. Viimased saavutasid parimaid üldiseid tulemusi ning viitavad eelseisvale tööle keerulisemate analoogsete närvivõrkude mudelitega. Uued teadmised on lisatud töö käigus valminud rakendusse, nimega PatternExaminer, mis on kasutusel meditsiinilistest vabatekstidest faktide eraldamisel. Seega käesolev töö viib meid lähemale näiteks automaatsetele kliinilistele uuringutele ning uuendustele personaalmeditsiinis.
Lõputöö keel
inglise
Lõputöö tüüp
Magister - Informaatika
Juhendaja(d)
Sven Laur
Kaitsmise aasta
2017