E-kirjade klassifitseerimine masinõppe abil Maanteeameti näitel

Nimi
Risto Hinno
Kokkuvõte
Lõputöö eesmärgiks on e-kirjadest teemade tuvastamise ja e-kirjade klassifitseerimise raamistiku loomine Maanteeameti näitel. Töö teoreetilises osas antakse ülevaade tekstikaevest, muuhulgas teemade modelleerimisest ja dokumentide klassifitseerimisest. Teemade modelleerimisel keskendutakse mudelile LDA ning optimaalse teemade arvu leidmisele. Dokumentide klassifitseerimise osas antakse ülevaade mudelitest Naïve Bayes, SVM ja fasttext. Lisaks tutvustatakse võimalusi, kuidas suurendada klassifitseerimismu-delite täpsust kasutades andmete esinduse muutmist, ansambelmeetodeid ja kalibreerimist. Töö empiirilises osas valmistatakse andmed ette ja analüüsitakse kasutades eel-mainitud mudeleid ja meetodeid. Maanteeameti e-kirjade optimaalne teemade arv varieerub kasutatud meetodite lõikes ning on subjektiivne. Siiski võimaldab koherentsus osaliselt automaatselt määrata, millises vahemikus võib optimaalne teemade arv olla. Oluline aspekt arusaadava teemade mudeli loomisel on andmete puhastamine. Teemade modelleerimist saab kasutada andmete hõlpsamaks märgendamiseks klassifitseerimis-mudelite jaoks. Pärast andmete märgendamist treenitakse klassifitseerimismudelid, võrdlemaks erinevate mudelite ja täpsust suurendavate meetodite mõju täpsusele. Kõige täpsem mudel loodi ansambelmeetodiga kuhjamine. Täpseim mudel, mis ei kasutanud ühtegi täpsust suurendavat meetodit, on lineaarne SVM. Samas on 20 täpseima mudeli täpsuste vahe 0,02 ühikut. Loodud raamistikku on võimalik kasutada mõne teise asutuse e-kirjade analüüsimiseks ning klassifitseerimiseks ja sellest tulenevalt automaatsemaks vastamiseks.
Lõputöö keel
eesti
Lõputöö tüüp
Magister - Infotehnoloogia mitteinformaatikutele
Juhendaja(d)
Kairit Sirts
Kaitsmise aasta
2018
 
PDF