Depressiooni ja ärevuse tuvastamine blogipostituste andmete baasil
Nimi
Yevhen Tyshchenko
Kokkuvõte
Depressioon ja ärevus mõjutavad paljude inimeste elu ja kui diagnoos ei ole õigeaeg-
selt määratud, võib see kaasa tuua märkimisväärseid terviseprobleeme ja isegi suitsiidi. Tänapäeval uurivad vaimse tervise spetsialistid ja andmeteadlased meetodeid, kuidas sotsiaalmeedia ja eriti avalikult kättesaadavate tekstisõnumite ja blogitekstide analüüsimise abil depressioonis inimesi tuvstada ja pakkuda neile vajalikku ravi ja toetust. Selles töös kogume eksperimentaalse andmestiku avalikult kättesaadavatest blogipostitustsest, mis koosneb nii kliinilisest kui ka kontrollgrupi postitustest. Kliiniline grupp koosneb autoritest, kes kannatavad depressiooni ja/või ärevuse all, kontrollgrupp koosneb tervetest isikutest, kes oma blogis kirjutavad depressiooni ja ärevuse teemadel. Töös leiame kogutud andmetes sisalduvad latentsed teemad ja analüüsime blogipostituste sisu vastavalt
blogi autorite poolt kajastatud teemadele. Katsetame mitmete teksti kodeerimismeetoditega nagu sõnahulk (BOW), TFIDF ja teemamudelist tuletatud tunnused. Treenime tugivektormasinatel (SVM) ning konvolutsioonilistel närvivõrkudel (CNN) põhinevaid klassifikaatoreid kliinilisse ja kontrollgruppi kuuluvate autorite eristamiseks. Lisaks uurime, kuidas mõjutavad erineva pikkusega blogipostitused CNN’i klassifitseerimistäpsust. Parimad täpsuse ja saagise skoorid vastavalt 78% ja 0,72 saadi konvolutsioonilise närvivõrgu (CNN) klassifikaatoriga, mis oli initsialiseeritud eeltreenitud GloVe sõnavektoritega.
selt määratud, võib see kaasa tuua märkimisväärseid terviseprobleeme ja isegi suitsiidi. Tänapäeval uurivad vaimse tervise spetsialistid ja andmeteadlased meetodeid, kuidas sotsiaalmeedia ja eriti avalikult kättesaadavate tekstisõnumite ja blogitekstide analüüsimise abil depressioonis inimesi tuvstada ja pakkuda neile vajalikku ravi ja toetust. Selles töös kogume eksperimentaalse andmestiku avalikult kättesaadavatest blogipostitustsest, mis koosneb nii kliinilisest kui ka kontrollgrupi postitustest. Kliiniline grupp koosneb autoritest, kes kannatavad depressiooni ja/või ärevuse all, kontrollgrupp koosneb tervetest isikutest, kes oma blogis kirjutavad depressiooni ja ärevuse teemadel. Töös leiame kogutud andmetes sisalduvad latentsed teemad ja analüüsime blogipostituste sisu vastavalt
blogi autorite poolt kajastatud teemadele. Katsetame mitmete teksti kodeerimismeetoditega nagu sõnahulk (BOW), TFIDF ja teemamudelist tuletatud tunnused. Treenime tugivektormasinatel (SVM) ning konvolutsioonilistel närvivõrkudel (CNN) põhinevaid klassifikaatoreid kliinilisse ja kontrollgruppi kuuluvate autorite eristamiseks. Lisaks uurime, kuidas mõjutavad erineva pikkusega blogipostitused CNN’i klassifitseerimistäpsust. Parimad täpsuse ja saagise skoorid vastavalt 78% ja 0,72 saadi konvolutsioonilise närvivõrgu (CNN) klassifikaatoriga, mis oli initsialiseeritud eeltreenitud GloVe sõnavektoritega.
Lõputöö keel
inglise
Lõputöö tüüp
Magister - Informaatika
Juhendaja(d)
Kairit Sirts
Kaitsmise aasta
2018