Faktide tuvastus vabast tekstist kasutades sügavaid närvivõrke

Nimi
Nesma Talaat Abbas Mahmoud
Kokkuvõte
Faktide tuvastamine vabast tekstist on keeruline ja tööjõumahukasülesanne, mida tavaliselt lahendatakse regulaaravaldiste ja reeglipõhiste süsteemidega.Meditsiini valdkonnas, kus säilitatakse paljusid ravi üksikasju ainult vaba tekstina, onautomatiseeritud faktide väljastamine ainus viis suuremahuliste meditsiiniliste andme-baaside tõlgendamiseks. Sellised meditsiinitekstid esindavad arstidevahelist suhtlust jatekst ei ole sageli süntaktiliselt korrektne, mõisteid ei kasutata järjepidevalt ja tekstis onpalju kirjavigu. Kirjeldatud probleemide tõttu on keeruline välja töötada reeglipõhiseidlahendusi, et käsitleda kõiki võimalikke viise, kuidas fakte kirja panna. Selles lõputöösuurime närvivõrkude kasutamisvõimalusi, et eraldada fakte Eesti Tervise Infosüsteemi epikriisi andmetest. Kasutades suuremat tekstide andmestikku õppisime ELMO mudeli mis võimaldas parandada andmete esitust. Väiksematel annoteeritud andmestikelhindasime erinevate süvanärvivõrgu arhitektuuride täpsust ja tundlikkust. Leidsime, eteeltreenitud mudelid võimaldasid tõhusalt treenida uusi fakti eraldamise mudeleid suhteliselt väikeste annoteeritud treeningandmestike põhjal. Kasutades treeningandmetena732 näidet, valideerides üle 82 ja testides üle 3258 näite saime F1-s skooriks 0,86.
Lõputöö keel
inglise
Lõputöö tüüp
Magister - Informaatika
Juhendaja(d)
Raivo Kolde
Kaitsmise aasta
2020
 
PDF