Ravitrajektooride koostamine sõnavektorite abil

Nimi
Õie Renata Siimon
Kokkuvõte
Magistritöös konstrueeritakse Haigekassa andmete (2010–2019) põhjal patsientide ravitrajektooride vektoresitused, kasutades selleks BERTi ja võrdluseks word2vec’i. Töö eesmärk on näha, kui hästi need loomuliku keele töötluse (NLP) mudelid töötavad, kui lausete asemel on sisendiks raviteenuste aegread, ning kas BERT on tulemuslikum kui word2vec. Seda, kui tulemuslikud on NLP mudelid mittekeeleliste andmete peal, on siiani vähe uuritud, ja käesolev töö annab panuse selle lünga täitmisse. Siin magistritöös koostati ravitrajektoorid 41 miljonil raviarvel olnud teenuskoodidest. Seejärel treeniti mudelid kahes etapis. Kõigepealt treeniti BERTi ja word2vec’iga teenuskoodide vektoresitused. Seejärel treeniti klassifitseerimismudelid, ühelt poolt peenhäälestades selleks BERTi ja teiselt poolt treenides word2vec’i vektoresituste peal KNN ja SVM klassifitseerimismudelid. Tulemused näitasid, et vaatamata BERTi kehvale sooritusele eeltreenimise etapis olid peenhäälestatud BERTi mudelid kõigis seitsmes klassifitseerimisülesannetes word2vec vektoritel treenitutest tulemuslikumad. Suurima täpsuse (0.9918) saavutas BERT raviliikide (5 klassi) ja vähima (0.4121) diagnooside (174 klassi) klassifitseerimisel. Töös järeldati, et BERT osutus ravitrajektooride klassifitseerimisel kasulikuks, vaatamata sellele, et tegu ei olnud loomuliku keele andmetega. Samuti järeldati, et BERTi konteksti arvestavad vektoresitused töötavad ravitrajektooridel word2vec’i konteksti mitte arvestavatest paremini. Neljast BERTi mudelist osutus kokkuvõttes parimaks suuruselt teine, mis näitab, et kui kasutatav ‘keel’ on loomulikust keelest lihtsam, siis võivad paremini töötada vähendatud mõõtmetega BERTi mudelid.
Lõputöö keel
inglise
Lõputöö tüüp
Magister - Andmeteadus
Juhendaja(d)
Sven Laur
Kaitsmise aasta
2023
 
PDF