Nõrgalt juhendatud teksti klassifitseerimine eestikeelse meelsusanalüüsi jaoks

Nimi
Andreas Pung
Kokkuvõte
Teksti klassifitseerimine on üks kõige fundamentaalsem ülesanne loomuliku keele töötluses. Käsitsi tekstide märgendamine on kulukas ja võib vajada spetsialiseeritud domeeniteadmisi – sellisel juhul võivad juhendamata ja nõrgalt juhendatud lähenemised olla kasulikud. Käesolevas magistritöös klassifitseeritakse eestikeelsete tekstide meelsust nõrga juhendamise paradigmaga. Selles paradigmas luuakse nõrgad märgendid märgendusfunktsioonidega (Ratner et al., 2016). Käesoleva töö eesmärk on hinnata nõrgalt juhendatud umbes 40× suurema andmestikuga treenitud mudelite rakendatavust, võrreldes väiksema arvu tekstide käsitsi märgendamisega, et treenida täielikult juhendatud klassifitseerija. Võrreldud mudelid on täielikult ja nõrgalt juhendatud BERT (Devlin et al., 2019); nõrgalt juhendatud COSINE (Yu et al., 2021) ja WeaSEL (Cachay et al., 2021). Inimhindamine viidi läbi tekstidel, kus mudelite ennustused olid kõige vastukäivamad. Leitakse, et täielikult juhendatud mudelid töötavad kõige paremini. Kõige paremini toimival suuremal andmestikul treenitud nõrgalt juhendatud mudelil oli keskmine klassifitseerimistäpsus 7.29% halvem (7.05% halvem F1-skoor) kui täielikult juhendatud BERTi mudelil. Nõrgalt juhendatud mudelite kehvem tulemus võib tuleneda märgendusfunktsioonide madalast kvaliteedist – nende edasiarendamine võib anda paremaid tulemusi.
Lõputöö keel
inglise
Lõputöö tüüp
Magister - Informaatika
Juhendaja(d)
Kairit Sirts
Kaitsmise aasta
2022
 
PDF