arvutiteaduse instituudi lõputööderegister


Suur RKK graafi töötlus Sparkil
Nimi Sadig Eyvazov
Kokkuvõte Viimaste aastate jooksul oleme täheldanud inimeste ja masinate poolt genereeritud andmemahu suur kasvu. Sellega kaasnevate probleemidele viitamiseks kasutatakse terminit suurandmed ("big data"). Suurandmetega kaasnevatest mitmetest probleemidest on põhilisteks jäänud maht, kiirus ja varieeruvus. Maht on seotud andmete suure kogusega, kiirus on seotud andmete tootmise ja töötlemise suure kiirusega ning varieeruvus on seotud andmete mitme erineva võimaliku formaadiga. Mitmetest olemasolevatest lahendustest mis tegelevad varieeruvusega, on kõige populaarsem RKK (Ressursside kirjeldamise karkass "resource description framework") andmemudel. RKK on W3C standard semantilisele veebile. Mitmed veebirakendused on ehitatud RKK andmemudelile kasutades SPARQL päringukeelt. Seega tekib RKK suureneva kasutuselevõtuga vajadus uurida suurte RKK andmekogumite kasutamist hajus keskkonnas. Apache Spark on modernne, suure jõudlusega suurandme mootor, mis on mõeldud töötlema tohutuid andmete koguseid hajus keskkonnas. Suurandme süsteemid nagu Apache Spark ei ole mõeldud töötlema RKK andmemudeleid, aga siiski on neil suurepärane jõudlus töötlemaks suurel skaalal relatsioonilisi andmeid. Seega implementeerime me SPARQL päringuid RKK andmete pihta kasutades Spark-SQL-i.

Selles dissertatsioonis hoiustame me RKK andmestiku Spark Dataframe abstraktsioonina kasutades olemasolevaid relatsioonilisi meetodeid. Me esitleme Spark-SQL mootori süsteemse jõudluse hinnangu SPARQL päringute täitmiseks, kasutades SP2Bench mõõtlusalust. Täpsemalt kasutasime me kolme asjakohast relatsioonilist skeemi, kahte talletus taustaprogrammi ja mitut faili formaati. Lisaks rakendasime ma ka kolme erinevat partitsioneerimis tehnikat, et näha nende mõju Spark-SQL päringute täitmise jõudlusele.Viimaks, on selle dissertatsiooni suured panused eksperimentaalsete tulemuste põhjalik analüüs ja disskusioon üle erinevate dimensioonide (näiteks relatsiooniline skeem, partitsioneerimis tehnika, talletus taustprogramm) mõju hajus keskkonnas tehtud päringu täitmise jõudlusele.
Lõputöö keel inglise
Lõputöö tüüp Magister - Informaatika
Juhendaja(d) Riccardo Tommasini, Mohammed Ragab
Kaitsmise aasta 2021
PDF