Eesti alaliste elanike määramine kasutades masinõppe meetodeid

Nimi
Egle Saks
Kokkuvõte
Riiklikul statistikal on oluline roll levitada ühiskonna kohta teadmisi ja fakte, mis võimaldaksid teha informeeritud otsuseid. Üks olulisemaid riikliku statistika levitavaid teadmisi on info rahvastiku kohta ning selle keskmes on info rahvaarvu kohta. Järjest kiiremini muutuvas maailmas vananeb informatsioon kiiremini kui varem ning seega oodatakse ka rahvastikustatistikat kiiremini ja tihemini. Euroopa Komisjon valmistab juba ette määrust, millega tuleks alaliste elanike arvu riigis avaldada kaks korda aastas. Praegu pannakse Eestis alalise elanikkonna kogum kokku kasutades 18 erinevat registrit, mis muudab tihemini avaldamise keeruliseks.

Selle magistritöö eesmärk on uurida, millised andmed on residentsuse määramiseks kõige olulisemad ja kuidas saavad elanikkonna määramisega vähendatud andmete kontekstis hakkama masinõppe mudelid. Töö eesmärgi täitmiseks on kasutatud Eesti Statistikaameti poolt kättesaadavaks tehtud andmeid. Andmetel rakendatakse peakomponentide analüüsi ning testitakse viit erinevat masinõppe mudelit. Tulemused näitavad, et vähendatud andmestik toimib üsna võrdväärselt algse andmestikuga ning residentsuse tuvastamiseks võib piisata ka väiksemast hulgast registritest. Masinõppe meetoditest toimivad kõige paremini otsustusmets ja XGBoost.
Lõputöö keel
eesti
Lõputöö tüüp
Magister - Andmeteadus
Juhendaja(d)
Terje Trasberg, Raivo Kolde
Kaitsmise aasta
2023
 
PDF