Eesti alamredditi korpuse loomine ning analüüs

Nimi
Tauno Tamm
Kokkuvõte
Reddit on maailma suurim foorum, mida jälgib igakuiselt umbes 1.2 miljardit kasutajat. Eesti suurimaks subreddit-iks ehk alamredditiks on r/Eesti. Selle magistritöö käigus loodi r/Eesti andmete põhjal keelekorpus ning analüüsiti seal olevaid andmeid. Analüüsi käigus vastati järgnevatele uurimisküsmustele: kuidas ja millal postitatakse ning millest postitatakse. Uurimisküsimustele vastamiseks peenhäälestati ning kasutati erinevaid siirdeõppe mudeleid tundmusanalüüsi läbiviimiseks, Pythoni keeletuvastuse teeki Lingua keeletuvastuseks, teemade analüüsiks BERTopic-ut jpm. Tulemustest selgus, et r/Eesti alamredditit võib pidada kakskeelseks, sest lisaks eesti keelele on suur osa postitusi ning kommentaare tehtud ka inglise keeles. Tundmusanalüüs näitas, et eesti keeles postitavad ja kommenteerivad kasutajad on tugevalt negatiivselt meelestatud, kuid inglise keeles kirjutavad kasutajad on tugevalt neutraalselt meelestatud, olles pigem positiivse tundmuse poole kaldu. Mõlema keele puhul on kõige populaarsemaks ühtivaks teemaks „Haridus“.
Lõputöö keel
eesti
Lõputöö tüüp
Magister - Andmeteadus
Juhendaja(d)
Siim Orasmaa
Kaitsmise aasta
2024
 
PDF