Tekstide klassifitseerimine

Organisatsiooni nimi
Keeletehnoloogia ATI
Kokkuvõte
Tekstide klassifitseerimise teemad

Taust: Kirjutatud tekstid kuuluvad erinevatesse tekstiliikidesse (kasutatud ka termineid tekstiklass, žanr). Tekstiliigid võivad olla nn laiad, nt ajalehed vs ilukirjandustekstid vs seadusetekstid vs teadustekstid, või kitsamad, nt ajalehes võib olla arvamusi, uudiseid, persoonilugusid jm.
Nende tekstiliikide keelekasutus erineb – aga mille poolest? Lihtsaimad eristajad on sõnavara ja lausepikkus, aga kindlasti ka tekstides esinevad grammatilised kategooriad. Viimaste kohta paar lihtsat näidet: nt teadustekstides kasutatakse rohkem impersonaali (Meie poolt tehti suur avastus) ja rohkem nominalisatsioone (Meie poolt suure avastuse tegemine toimus ...) kui teistes tekstiklassides. Tekstide liigitamine tekstiliigi või žanri järgi ei ole seesama, mis liigitamine teema (topic) järgi.
Vt ka Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python ptk 6. Learning to Classify Text

1.Tekstiliigi tuvastamine: klassifitseerimiseks oluliste tunnuste otsimine

Materjal: Eesti keele Tasakaalus korpus, st tekstide kogu, mis sisaldab 15 miljonit sõna, võrdses koguses ajakirjanduse, ilukirjanduse ja teaduse tekste. Korpusest on olemas morfoloogiliselt märgendatud versioon, kus igale tekstisõnale on lisatud tema algvorm, sõnaliik, grammatilised kategooriad ja esialgne sõltuvussüntaktiliselt märgendatud versioon, kus iga sõna kohta on lisaks morfoloogilisele infole teada ka tema süntaktiline funktsioon (alus, öeldis ja need teised) ning on teada tema ülemus sõltuvuspuus. Süntaktiline märgendus on paraku üsna vigane.

Ülesanne: Leida nende kolme tekstiklassi eristamiseks relevantsed tunnused.

2. Tekstiliigi tuvastamine: märgendamata teksti klassifitseerimine

Materjal: eesti keele veebist korjatud korpus enTenTen mahuga 270 miljonit sõna, selle kohta vthttp://www2.keeleveeb.ee/dict/corpus/ettenten/about.html

Kui nn klassikalise kirjaliku keelekasutuse põhilised tekstiliigid on laias laastus teada, siis internetikeele või nn kasutaja loodud sisu tekstiliigiline või žanriline jagunemine on udune.

Korpus on jagatud kuude tekstiklassi + seitsmes, mis sisaldab neid tekste, mida ei õnnestunud klassifitseerida. Korpus on morfoloogiliselt märgendatud, st igale tekstisõnale on lisatud tema algvorm, sõnaliik, grammatilised kategooriad, kuid märgenduse kvaliteet on teadmata, oletada võib, et mida mitteformaalsem on tekst, seda rohkem on seal mitte-kirjakeelseid sõnavorme, mille morfoloogiline analüüs pole õnnestunud.

Ülesanne 2. 2: Klassifitseerida enTenTen ja võrrelda tulemust varemtehtud klassifikatsiooniga.

2. Tekstiliigi tuvastamine: juhendatud klassifitseerimine

Materjal: eelmise ülesande materjal + eesti keele veebist korjatud korpus enTenTen mahuga 270 miljonit sõna, selle kohta vt http://www2.keeleveeb.ee/dict/corpus/ettenten/about.html

Kui nn klassikalise kirjaliku keelekasutuse põhilised tekstiliigid on laias laastus teada, siis internetikeele või nn kasutaja loodud sisu tekstiliigiline või žanriline jagunemine on udune.

Ülesanne 2. 1: Õppida Tasakaalus korpuse peal ja klassifitseerida enTenTen, lisades Tasakaalus korpuse kolmele tekstiliigile neljas tekstiliik „muu”. Lisaks eelnevale võib proovida klassifitseerimisülesannet, kus iga tekst võib kuuluda mitmesse tekstiliiki (multi-class classification)

Ülesanne 2. 2:õppida Tasakaalus korpuse pealt nii, et ajalehed jaotatakse rubriigiinfo järgi eraldi tekstiliikideks (uudised, arvamus, sport, kultuur jne) ja klassifitseerida siis enTenTen. Lisaks võib proovida klassifitseerimisülesannet, kus iga tekst võib kuuluda mitmesse tekstiliiki (multi-class classification).
Lõputöö kaitsmise aasta
2016-2017
Juhendaja
Kadri Muischnek
Suhtlemiskeel(ed)
eesti keel, inglise keel
Nõuded kandideerijale
Tase
Bakalaureus, Magister
Märksõnad
#keeletehnoloogia

Kandideerimise kontakt

 
Nimi
Kadri Muischnek
Tel
E-mail
Kadri.Muischnek@ut.ee
Kuulutus
PDF kuulutus