Päringu töökoormusest sõltuv skeemi optimeerimine suurte töötlemiseks RDF-i andmestikud

Nimi
Farid Valiyev
Kokkuvõte
Maailmas, kus me elame, ei suurene andmete maht mitte ainult, vaid need on ka üha enam omavahel seotud ja lingitud. Paljudes meie igapäevaelu valdkondades, nagu sotsiaalmeedia, arvutusbioloogia ja valguvõrgud, telekommunikatsioon ja paljud teised, on graafikute andmemudelid kõige loomulikum, hõlpsamini mõistetav ja mitmekülgsem andmeabstraktsioon, mis esindab maailma struktureeritud teadmisi. Tegelikult esindavad loomuliku keele töötlemise ja arvutinägemise kaudu hangitud teavet praegu peamiselt teadmiste graafikud (KG-d).

KG-d on tõhusad vahendid mitmest heterogeensest andmeallikast pärit andmete esitamiseks, integreerimiseks ja ühendamiseks. Need rakendused tõid kaasa KG-de populaarsuse tõusu. Kuid teisest küljest toob see kaasa arvutuslikke väljakutseid, kuna KG-de maht kasvab tohutult. Täpsemalt on mitmed rakendused kasutanud standardset Resource Description Framework (RDF) graafiku andmemudelit, et esitada, jagada ja integreerida veebis olevaid andmeid.

Seetõttu on nüüd nõutud semantilise veebi (SW) kogukonna keskne probleem skaleeritavate RDF-i KG-de haldamisel. Natiivsed graafikuandmebaasid (nt Apache Jena, RDF-3X ja Virtuoso) ei suuda oma tsentraliseeritud arvutusparadigma tõttu suuri RDF-andmekogumeid hallata ja töödelda, st neid ei saa skaleerida. Seega hakkab SW kogukond uurima relatsioonilisi suurandmete (BD) raamistikke, kasutades nende mastaapsust ja tõhusust. Relatsioonisüsteemid saavad suure osa oma tõhusast jõudlusest tänu keerukatele optimeerijatele, mis kasutavad relatsioonimudelit, relatsioonialgebra lihtsust ja küpsust. Vaatamata relatsioonilahenduste paindlikkusele, pakub RDF-graafiku paindlik (st skeemivaba) struktuur väljakutseid RDF-graafikute salvestamisel ja haldamisel relatsiooniskeemides. Kaasaegne tehnika näitab, et pole olemas ühtset RDF-i relatsiooniskeemi, mis sobiks kõigile päringukoormustele. Eelkõige on iga päringutüübi puhul erinev RDF-i relatsiooniskeemi võitja ja ühe päringuperekonna võitja võib ootamatult teises osas kõige halvemini toimida.

Selles lõputöös väidame, et mitme RDF-i relatsiooniskeemi kombineerimine hübriidskeemi saamiseks tagab BD-süsteemi parema jõudluse suurte KG-de päringute tegemisel. Sellegipoolest nõuab skeemita KG-de jaoks hübriidskeemilahenduste kavandamine tohutuid andmetehnilisi jõupingutusi ja kohandatud lahendusi. Sel eesmärgil pakub see lõputöö välja algoritme, mis kujundavad automaatselt hübriidse RDF-i relatsiooniskeemi, mis kohandub päringu töökoormusega, hõlmates paljusid päringutüüpe, jätmata tähelepanuta laadimisaegu ja salvestuskulusid. Eelkõige läheneme sellele eesmärgile andmeprofiilide koostamise ja päringute profileerimisega, et otsida paremat andmete lokaliseerimist, kombineerides asjakohaseid andmeid, mida sageli samade seoste kohta päritakse. Meie lähenemisviis ulatub optimaalse hübriidskeemini, mis võtab arvesse nii aluseks olevaid andmesuhteid kui ka päringu töökoormust.
Lõputöö keel
inglise
Lõputöö tüüp
Magister - Informaatika
Juhendaja(d)
Mohamed Ragab Moawad Mohamed, Riccardo Tommasini, Alexander Nolte
Kaitsmise aasta
2023
 
PDF