arvutiteaduse instituudi lõputööderegister


Masinõppe meetoditega inimese Y kromosoomi haplogruppide määramine tihedatest ja hõredatest geeniandmestikest
Nimi Jose Rodrigo Flores Espinosa
Kokkuvõte Inimese Y kromosoomi geeniandmeid klassifitseeritakse haplogruppide kategooriatesse vastavalt fülogeneetilisele puule. Monofüleetilisi klaade nimetatakse puul haplogruppideks. Nende kategooriate määramiseks esitavad praegused meetodid teadaolevat Y kromosoomi fülogeneesipuud puukujulise andmestruktuurina. Tihti kasutatakase üksiku Y kromosoomi haplogrupi klassifitseerimiseks laiutiotsingut. Puu käiakse läbi, uurides edasi vaid neid radu, millele on DNA-andmestikus olemas variandid, mille toel jõutakse leheni ehk lõpliku haplogrupi klassifikatsioonini. See strateegia on väga tõhus tihedate sekveneerimis- ja genotüpiseerimis andmestike puhul. Samas madalama tihedusega andmestike puhul – mõned genotüpiseerimiskiibid või vana DNA andmed - ei õnnestu laiutiotsinguga leheni jõuda ebamäärasuse tõttu, kuna pole piisavalt infot kuhu edasi minna.

Selles töös kasutasime ära järjest enam kättesaadavaid ülemaailmseid inimese Y kromosoomi täpsustatud haplogruppidega andmestikke. Rakendame töös k-lähimate naabrite (KNN) klassifikaatorit uudsel viisil erineva tihedustega andmestikele, ulatuses kõrgtihedatest sekveneerimisandmestikest kuni väga hõredate vana DNA andmestikeni. Töö peamine eesmärk on hinnata selle lähenemisviisi kasulikkust keerukate juhtude puhul, kus laiutiotsingul põhinevate meetodite abil ei õnnestu jõuda selgete sisuliste tulemusteni. Selle saavutamiseks kasutasime erinevaid DNA variantide kodeerimisi koos dimensioonide vähendamise tehnikatega. Me uurisime ka uudset meetodit DNA variantide esitamiseks, kasutades Word2vec kontekstuaalset vektoresitust. DNA variantide väljavõtteid esitatakse sõnadena tekstis ja kogu variantide genotüüpi lausena. Sellisel viisil kodeerimine lisab rikkaliku kontekstuaalset informatsiooni, mis aitab haplogruppide klassifitseerimisel ja seda võib rakendada ka muudele genoomika andmetele.

Tulemused näitavad, et klassifitseerimise täpsus on kõrge (>98%) uue põlvkonna sekveneerimise andmete puhul ja genotüpiseerimisandmete puhul, mis on vastavalt tihe ja hõre andmestik. Vana DNA puhul, mis on kõige hõredam ja vigaderohkem andmestik, on aga täpsus oluliselt kehvem (<60%). Nägime, et paljude keerukate juhtude puhul KNN ei suuda õigesti ennustada täpseimat klassifikatsiooni, kuid suudab määrata põhikategooria ja see võib siiski olla praktikas kasutatav.
Lõputöö keel inglise
Lõputöö tüüp Magister - Informaatika
Juhendaja(d) Dr. Kallol Roy, Dra. Monika Karmin
Kaitsmise aasta 2022
PDF