arvutiteaduse instituudi lõputööderegister


Segregatsiooni mõistmine Balti riikides eraisikute vaheliste pangaülekannete kaudu
Nimi Kaisa Saarkoppel
Kokkuvõte Segregatsiooni, mis näitab kuivõrd on üks rahvastikurühm ülejäänud rahvastikust eraldatud, on uuritud erinevate tunnuste põhjal enam kui pool sajandit. Käesolevas projektis analüüsime segregatsiooni olemasolu ja tugevust suurtel andmehulkadel kasutades kvantitatiivset lähenemist tavapärase kvalitatiivse lähenemise asemel. Tegime koostööd finantsasutusega, millel on koduturud kolmes Balti riigis: Eestis, Lätis ja Leedus. Kasutatud anonümiseeritud andmestik sisaldab kõigi kolme riigi eraisikute vaheliste finantsülekannetega seotud infot, et uurida ja mõista segregatsiooni inimsuhete ehk loodud finantstehingute kaudu. Kokku analüüsime enam kui kolme miljoni eraisikuga seotud infot viie aastase perioodi jooksul, aastatel 2017 kuni 2021. Segregatsiooni analüüsimiseks vaatleme erinevaid eraisikuga seotud näitajaid nii riigi kui ka maakonna tasandil aastate lõikes. Lisaks tehinguandmete analüüsile võrdleme neid ka riikide rahvaloendustel kogutud andmetega, et teha kindlaks, kas tehinguandmestikud on sobivad esindamaks kogu rahvastikku. Selgub, et tehinguandmed esindavad kõiki Baltikumi maakondi tunnuse "sugu" põhjal. Samuti esineb esindatavuse varieeruvust maakonniti tunnuste "eelistatud suhtluskeel" ja "vanusegrupp" puhul. Segregatsiooni leidmiseks kasutame kahte meetodit. Ühe meetodina arvutame andmestike pealt kaks segregatsiooniindeksit: spektraalne segregatsiooniindeks (Spectral Segregation Index) ja Coleman’i homofiilia indeks (Coleman’s Homophily Index). Teise meetodina koostame tehinguvõrgustiku kui sotsiaalse võrgustiku. Lihtsuse mõttes kasutame oma projektis suunamata ja kaalumata graafi. Graafidelt saame infot, kuidas on rahvastik fintantstehingute seisukohalt aastate jooksul muutunud. Segregatsiooni leidmiseks viime tehinguvõrgustiku vektoriseeritud kujule algoritmi node2vec abil. Seejärel kasutame meetodit t-SNE, et vähendada vektorruumi ja visualiseerida saadud tulemused kahemõõtmelises ruumis. Tulemused näitavad, et kõige suurem muutus tehingute arvus viie aasta jooksul on toimunud Leedus ning kõige väiksem muutus Eestis. Igas Balti riigis leidub maakondi, kus esineb eelistatud suhtluskeele segregatsiooni vähemusgruppides. Lisaks on Lätis ja Leedus tendents vanusegrupi 15-19 segregatsiooniks.
Lõputöö keel inglise
Lõputöö tüüp Magistrieksam - Andmeteadus
Juhendaja(d) Rajesh Sharma, Jaan Übi
Kaitsmise aasta 2022
PDF