Word Mover's Distance algoritmil põhinevad fraasisarnasusmõõdud

Nimi
Hele-Andra Kuulmets
Kokkuvõte
Loomuliku keele tekstide vahelise semantilise sarnasuse mõõtmisel on oluline osa tekstide klassifitseerimisülesannete lahendamisel. Samas probleemid, mida saaks potentsiaalselt lahendada kasutades semantilise sarnasuse mõõtmist, ei põhine alati pikkadel, mitmetest lausetest koosnevatel tekstidel. Mõnikord tuleb märgendamisotsus teha ainult ühe lause või fraasi põhjal.
Käesolevas töös kasutatakse tekstide sarnasuse mõõtmise meetodit Word Mover's Distance (WMD) kolme erineva probleemi lahendamisel, kus otsus tuleb teha lühikeste fraaside põhjal. Esimene probleem, milleks on puuduva sõna konteksti põhjal ennustamine, on välja mõeldud probleem, mille eesmärk on hinnata meetodi headust ja sobivust lühikestele fraasidele. Saadud tulemused on head ja näitavad, et WMD võiks sobida fraaside eraldamiseks semantilise sarnasuse põhjal. Ülejäänud kaks probleemi ilmestavad meetodi praktilisi kasutusvõimalusi. Esimesel juhul kasutatakse seda patsientide epikriisidest ravimi kõrvalmõjude tuvastamiseks. Teisel juhul rakendatakse meetodit süntaksiparseri vigade analüüsiks. Viimasel juhul on eesmärgiks ennustada fraase, mida parser ei oska õigesti märgendada. Erinevatel põhjustel, mida samuti on käesolevas töös analüüsitud, ei olnud saadud tulemused kummalgi juhul head.
Lõputöö keel
inglise
Lõputöö tüüp
Magister - Informaatika
Juhendaja(d)
Sven Laur
Kaitsmise aasta
2019
 
PDF