Euroopa Liidu Kohtu otsustest fraasidele sarnaste lõikude otsingu analüüs CountVectorizer ja Word2Vec baasil

Nimi
Sirle Orav-Hinno
Kokkuvõte
Magistritöös analüüsitakse, kas CountVectorizer või Word2Vec abil on võimalik luua nutikam märksõna otsing, mis annaks etteantud fraasile sarnaseid Euroopa Kohtu otsuste lõike. Hetkel olemasolevad InfoCuria ja EUR-Lex otsingusüsteemid ei võimalda Euroopa Liidu Kohtu otsust kuvada selliselt, et selle lugemist saaks alati alustada kohtu analüüsist. Samuti ei kuva need sisult sarnaste sõnadega tulemusi. Eeltoodust tulenevalt on Euroopa Kohtu otsustest fraasidele vastava informatsiooni leidmine aeganõudev. Magistritöö käigus loodi kolm Euroopa Kohtu otsuste andmetabelit (kohtu hinnangu ja resolutsiooni tekstid, ainult kohtu hinnangu tekstid ning ainult resolutsiooni tekstid), kus iga Euroopa Kohtu lahendi kohta on kohtu hinnangu ja resolutsiooni osad lõikudena eraldi ridadel. Pärast seda rakendati nende andmestike peal CountVectorizerit ja Word2Veci, et saada kätte lõikude vektorid, mida testimiseks kasutatava fraasidega võrrelda. Testimiseks kasutati kümmet maksuõiguse fraasi. Töö tulemusena leiti, et CountVectorizer või Word2Vec abil on võimalik luua nutikam märksõna otsing (tulemustena kuvataks kasutajale kohtuotsuse lõigud, mitte terviktekstid), kuid see toimib kohtu hinnangu osast juristide ja kohtunike jaoks kasulike lõikude leidmiseks. Kasulike kohtuotsuste resolutsioonide leidmiseks toimivad jätkuvalt paremini InfoCuria ja EUR-Lex otsingusüsteemid.
Lõputöö keel
eesti
Lõputöö tüüp
Magister - Infotehnoloogia mitteinformaatikutele
Juhendaja(d)
Dage Särg, Risto Hinno
Kaitsmise aasta
2021
 
PDF