Andmestike automaatne sildistamine andmete leitavuse parandamiseks riiklikes avaandmete portaalides

Nimi
Kevin Kliimask
Kokkuvõte
Alates 2000-ndate keskpaigast on erinevad valitsustasandid propageerinud riiklike avaandmete portaale. Kuna riiklikes avaandmete portaalides avaldatakse üha rohkem andmekogumeid, muutub konkreetsete andmete leidmine aina raskemaks. Andmekogumite leitavuse tagamise võtmeks on nende täielik ja täpne dokumenteerimine, sealhulgas andmestike seostamine asjakohaste siltidega. Eesti avaandmete teabeväravas on avalikustatud kokku 1787 andmestikku (23 aprill, 2024 seisuga) ning neid analüüsides selgus, et 11% andmestikest pole seotud ühegi sildiga. Lisaks selgus, et 26% andmestikest oli seotud ainult ühe sildiga. See viitab sellele, et Eesti avaandmete teabeväravas esineb probleeme andmekogumite leitavuse ja kättesaadavusega. Käesoleva töö peamine eesmärk on esitada automatiseeritud lahendus andmekogumite sildistamiseks, et parandada andmete leitavust riiklikes avaandmete portaalides. Selle töö käigus loodi rakenduse prototüüp, mis kasutab suuri keelemudeleid nagu GPT-3.5-turbo ja GPT-4 andmekogumite sildistamiseks inglise ja eesti keeles. Loodud prototüüpi hinnati kasutajate poolt ning nende tagasisidet kasutati rakenduse täiustamise planeerimiseks.
Lõputöö keel
inglise
Lõputöö tüüp
Bakalaureus - Informaatika
Juhendaja(d)
Anastasija Nikiforova
Kaitsmise aasta
2024
 
PDF