Psühhoosi prodroomi sümptomite eraldamine meditsiinitekstidest treeningandmestike loomiseks
Nimi
Kristel Agu
Kokkuvõte
Käesolevas magistritöös loodi poolautomaatset metoodikat kasutades kolm märgendatud treeningandmestikku psühhoosi prodroomi sümptomite tuvastamiseks meditsiinitekstidest. Treeningandmestike koostamiseks kasutati 2012.-2019. aastate 10% juhuslikult valitud Eesti rahvastiku meditsiinidokumente, millest leiti esmasele prodroomile viitavatele diagnoosidele vastavad tekstid (2780 teksti) ning tükeldati need edasise töötlemise lihtsustamiseks lauseteks (31 009 lauset). Esmane andmestik logistilise regressiooni mudeli treenimiseks koostati tükeldatud lausetest otsitavat sümptomit sisaldavate lausete välja sõelumisel regulaaravaldise abil ning nende töö autori poolt käsitsi märgendamisel. Logistilise regressiooni mudeliga töötamiseks leiti lausetele Eesti tekstikorpusel eeltreenitud Word2Vec mudelit kasutades keskmised vektorid. Selleks, et leida järelejäänud lausete hulgast veelgi otsitavat sümptomit sisaldavaid lauseid, mida näiteks regulaaravaldisega ei suudetud tuvastada, kasutati esmasel andmestikul treenitud mudelit. Pärast esmase andmestikuga mudeli treenimist alustati iteratiivse protsessiga, kus mudeliga ennustati allesjäänud lausete hulgast otsitavat sümptomit sisaldavaid lauseid, märgendati need käsitsi, lisati olemasolevale andmestikule ning korrati protsessi kuni mudel ei ennustanud uusi lauseid. Logistilise regressiooni mudeli kasutamine otsitava sümptomiga lausete tuvastamiseks lihtsustas treeningandmestiku koostamise protsessi, vähendades käsitsi läbivaadatavate lausete hulka. Töö tulemusena valmisid 799 märgendatud lausega andmestik psühhoosi prodroomi sümptomi „veider käitumine” eraldamiseks, 643 lausega sümptomite „depersonalisatsioon” ja/või „derealisatsioon” eraldamiseks ning 1176 lausega andmestik „paranoilise luulu” ja/või „kahtlustamise” eraldamiseks, mida saab kasutada edasiste mudelite treenimisel.
Lõputöö keel
eesti
Lõputöö tüüp
Magister - Infotehnoloogia mitteinformaatikutele
Juhendaja(d)
Sulev Reisberg, Kairit Sirts
Kaitsmise aasta
2024