arvutiteaduse instituudi lõputööderegister


Äriuudistes ettevõtete kindlaks tegemine kasutades trafopõhist lähenemist nimeüksuste tuvastamiseks
Nimi Vladyslav Umerenko
Kokkuvõte Massimeedia tehnoloogiate edusammud on teinud internetis kättesaadavaks tohutu suure hulga uudiste artikleid, mis mainivad nii era kui avaliku sektori ettevõtteid. Sellest informatsioonist võiksid kasu saada mitmed asutused. Kuna antud artiklite hulk on tohutu, siis manuaalne tekstitöötlus on võimatu. Seetõttu on teadlased alati otsinud tõhusamaid viise, kuidas tuvastada uudiste artiklitest ettevõtete andmeid, eriti just nende nimesid. Võimalike rakenduste seas on teabeotsing ettevõtte mainimisel ning nende seostamine juba andmebaasis olevate teadaolevate ettevõtetega. See võimaldaks jälgida ettevõtete tegevusi, mis on ülioluline ettevõtete tegevusanalüüsi teenuse osutajatele, süstemaatilistele kauplejatele ning mitmetele teistele osapooltele, kes sõltuvad ettevõtete tegevuse monitoorimisest. Üks võimalik lähenemisviise ettevõtete nimede tuvastamiseks on Nimeüksuste tuvastamine (NER), mis üritab leida ja klassifitseerida sobivad nimisõnad kindlaks määratud kategooriatesse. Kui traditsioonilised NER’i lähenemisviisid sisaldavad reeglitepõhist, sõnapõhist ning järjestuste modelleerimise mudeleid nagu pikk lühiajaline mälu (LSTM) ja tingimuslik juhuslik väli (CRF), siis hiljutised arengud sügavõppes võimaldavad tipptasemel NER’i loomiseks rakendada kombinatsiooni trafopõhistest mudelitest ning järjestuste modelleerimisest. Käesolev uurimus hindab kõigepealt lihtsaid ettevõte tuvastamise lähenemisi. Seejärel vaadeldakse mõningaid sõnapõhiseid mudeleid, et hinnata keerukamate mudelite vajadust. Järgmisena esitletakse kooslust trafopõhisest mudelist, täpsemalt RoBERTa-base’ist, ja järjestuste-põhisest algoritmist. Ning viimasena pannakse uudiste artiklitest saadud nimeüksused proovile ettevõtete tuvastamisel. Katsed on näidanud, et trafodel põhinevad mudelid on märgatavalt edukamad nii nimeüksuste leidmisel kui ettevõtete tuvastamisel (kahekordne täiustamine). Lisaks lahendab esitletud lähenemine edukalt ettevõtete nimede tuvastamise, mida saab kasutada olemasoleva ettevõtete andmebaasi laiendamiseks.
Lõputöö keel inglise
Lõputöö tüüp Magister - Tarkvaratehnika
Juhendaja(d) Rajesh Sharma
Kaitsmise aasta 2022
PDF