Arvutiteaduse instituut - lõputööde register

Valminud lõputööd (sisestamine) Lõputööde teemad (sisestamine)

E-kirjade klassifitseerimine masinõppe abil Maanteeameti näitel

Nimi

Risto Hinno

Kokkuvõte

Lõputöö eesmärgiks on e-kirjadest teemade tuvastamise ja e-kirjade klassifitseerimise raamistiku loomine Maanteeameti näitel. Töö teoreetilises osas antakse ülevaade tekstikaevest, muuhulgas teemade modelleerimisest ja dokumentide klassifitseerimisest. Teemade modelleerimisel keskendutakse mudelile LDA ning optimaalse teemade arvu leidmisele. Dokumentide klassifitseerimise osas antakse ülevaade mudelitest Naïve Bayes, SVM ja fasttext. Lisaks tutvustatakse võimalusi, kuidas suurendada klassifitseerimismu-delite täpsust kasutades andmete esinduse muutmist, ansambelmeetodeid ja kalibreerimist. Töö empiirilises osas valmistatakse andmed ette ja analüüsitakse kasutades eel-mainitud mudeleid ja meetodeid. Maanteeameti e-kirjade optimaalne teemade arv varieerub kasutatud meetodite lõikes ning on subjektiivne. Siiski võimaldab koherentsus osaliselt automaatselt määrata, millises vahemikus võib optimaalne teemade arv olla. Oluline aspekt arusaadava teemade mudeli loomisel on andmete puhastamine. Teemade modelleerimist saab kasutada andmete hõlpsamaks märgendamiseks klassifitseerimis-mudelite jaoks. Pärast andmete märgendamist treenitakse klassifitseerimismudelid, võrdlemaks erinevate mudelite ja täpsust suurendavate meetodite mõju täpsusele. Kõige täpsem mudel loodi ansambelmeetodiga kuhjamine. Täpseim mudel, mis ei kasutanud ühtegi täpsust suurendavat meetodit, on lineaarne SVM. Samas on 20 täpseima mudeli täpsuste vahe 0,02 ühikut. Loodud raamistikku on võimalik kasutada mõne teise asutuse e-kirjade analüüsimiseks ning klassifitseerimiseks ja sellest tulenevalt automaatsemaks vastamiseks.

Lõputöö keel

eesti

Lõputöö tüüp

Magister - Infotehnoloogia mitteinformaatikutele

Juhendaja(d)

Kairit Sirts

Kaitsmise aasta

2018

PDF

TÜ arvutiteaduse instituudi lõputööde register

E-kirjade klassifitseerimine masinõppe abil Maanteeameti näitel