Sparki ökosüsteemi kõva ja pehme häälestamine päringute energiatõhususe suunas
Nimi
Tofig Bakhshiyev
Kokkuvõte
Käesolevas töös uuritakse TPCH päringute täitmise energiatõhusust Apache Sparki raamistikus, keskendudes selgesõnaliselt erinevatele failivormingutele (Parquet, CSV, Avro ja TBL) ja erinevatele partitsioonide suurustele iseseisvas konfiguratsioonis. Hindamisel mõõdetakse energiakulu andmete lugemise ja päringu töötlemise faasis. Esmalt võrreldakse Parquet, CSV ja Avro formaatide omadused, analüüsides nende mõju Sparki päringute sooritamisele. Lisaks uuritakse Sparki eraldiseisvat konfiguratsiooni, uurides klastri seadistusi, ressursside jaotust ja riistvara optimeerimist, mis mõjutavad energiakasutust päringu täitmise ajal. Selle uurimise lahutamatu osa on mõista, kuidas erinevad partitsioonide suurused mõjutavad energiatarbimist. Hindamisel süstemaatiliselt hinnatakse partitsioonide suuruse mõju IO-operatsioonidele, andmete segunemisele ja üldisele energiatarbimisele päringute töötlemisel. Kasutades TPCH päringuid kontrollmõõduna, tehakse katseid erinevate failiformaatide, partitsioonide suuruse ja konfiguratsioonide vahel. Tulemused pakuvad praktilisi teadmisi energiatõhususe suurendamiseks Sparkipõhises suurandmete töötlemises. See uurimus aitab kaasa laiemale arutelule säästliku andmetöötluse teemal, suunates praktikuid tegema energiateadlikke otsuseid Apache Sparki keskkondades.
Lõputöö keel
inglise
Lõputöö tüüp
Magister - Informaatika
Juhendaja(d)
Simon Pierre Dembele
Kaitsmise aasta
2024