arvutiteaduse instituudi lõputööderegister


Avalike RNA-Seq andmete taaskasutamine
Nimi Tõnis Tasa
Kokkuvõte "Järgmise põlvkonna sekveneerimismeetodid"(NGS) on geeniandmete analüüsil kiiresti populaarsust kogumas. RNA-Seq on NGS tehnika, mis võimaldab geeniekspressiooni tasemete hindamist. Eksperimentidest kogutuid andmeid arhiveeritakse jõudsalt avalikesse andmebaasidesse, kuna toorandmete neisse edastamine on üheks eeltingimuseks akadeemilistes ajakirjades avaldamiseks. RNA-Seq toorandmed on mahult üsna suured ja üksikute eksperimentide analüüs üsnagi aeganõudev. Sekveneerimise toorandmeid taaskasutatakse praegu veel üsna vähe. Andmebaasidesse leiduvate andmete taaskasutamisele avaldavad pärssivat mõju ebatäpsed katseplaneerimise kirjeldused ja kindlate standardite puudumine analüüsimeetodites. Tööriistade vahelised algoritmilised eripärad tähendavad erinevatel meetoditel teostatud analüüside vähest võrreldavust. Lihtne kollektsioonide agregeerimine ei tööta, kuna analüüsitud andmed pole võrreldavad. Seega tuleb analüüs kõikide eksperimentide jaoks teostada alates toorandmetest. Iga eksperimendi analüüs on aga üsna aeganõudev ning nõuab kuldsete standardite puudumisel konkreetseid valikuid. Suuremahuliste analüüsiandmete kollektsiooni nõuab seega efektiivset töövoo implementatsiooni. Toimimise tingimusteks on minimaalne inimsekkumine, fikseeritud tööriistade valik ja robustne eksperimentide käsitsemismetoodika. Väga erinevates tingimustes teostatud eksperimentide ekspressiooniandmete agregeerimine loob võimaluse andmekaeve meetodite rakendamiseks. Lokaalselt ilmnevad mustrid võivad taustsüsteemis osutuda signaaliks. Üheks analüüsivallaks, mis selliseid mustreid uurib on koekspressioonianalüüs. Selles magistritöös arendasime ja implementeerisime raamistiku suuremahuliseks avalike RNA-Seq andmete analüüsiks. Analüüs ei vaja eksperimentide analüüsimisele eelnevalt konfiguratsioonifaili vaid toetub ühekordselt konstrueeritud andmebaasile. Kasutajapoolne sekkumine on minimaalne, kõik parameetrid määratakse andmetest lähtuvalt. See võimaldab järjestikulist analüüsi üle arvukate eksperimentide. Loodavat RNA-Seq ekspressiooniandmete kollektsiooni kasutatakse sisendina BIIT töörühma poolt arenda- tud koekspressiooni uurimise tööriistas - MEM. Algselt oli see ehitatud üksnes mikrokiip andmetelt sondide koekspressiooni hindamiseks, kuid RNA-Seq ekspressiooniandmed laiendavad selle rakendusampluaad.
Lõputöö keel inglise
Lõputöö tüüp Magister - Informaatika
Juhendaja(d) Priit Adler
Kaitsmise aasta 2015
PDF