Přidání podpory dalších relačních databází do systému IDSM
Název práce v češtině: | Přidání podpory dalších relačních databází do systému IDSM |
---|---|
Název v anglickém jazyce: | Adding support for multiple relational databases to the IDSM system |
Klíčová slova: | Sémantický web|Linked Data|RDF|SPARQL|SQL|databáze |
Klíčová slova anglicky: | Semantic Web|Linked Data|RDF|SPARQL|SQL|database |
Akademický rok vypsání: | 2025/2026 |
Typ práce: | diplomová práce |
Jazyk práce: | |
Ústav: | Katedra softwarového inženýrství (32-KSI) |
Vedoucí / školitel: | RNDr. Jakub Galgonek, Ph.D. |
Řešitel: |
Zásady pro vypracování |
Jeden z nejdůležitějších požadavků kladených na vědecká data je jejich interoperabilita. Jedním ze způsobů, jak této interoperability dosáhnout, je publikování dat pomocí technologií Sémantického webu. Konkrétně, pokud jsou data publikována v RDF formě, mohou být následně s použitím vhodného systému dotazována pomocí jazyka SPARQL. Tento jazyk podporuje federované dotazy, což umožňuje dotazovat se více zdrojů (serverů) najednou pro řešení komplexních dotazů, což jen zvyšuje tolik požadovanou interoperabilitu. Nejen z toho důvodu je v posledních letech mnoho biologických a chemických datasetů publikováno právě i v této formě.
Na Ústavu organické chemie a biochemie nyní provozujeme databázi IDSM, která integruje data o malých molekulách. Tato data jsou uložena v relační databázi a námi vyvíjený systém překládá příchozí SPARQL dotazy na SQL dotazy, které jsou následně vyhodnocovány databází PostgreSQL. V porovnání s některými konkurenčními řešeními je nedostatkem našeho systému úzké provázání právě s databází PostgreSQL. Není jej tedy možné použít v kombinaci s jinými relačními databázemi. Úkolem diplomové práce bude přidat do tohoto systému podporu dalších databází (minimálně pro MariaDB). To bude v první fázi vyžadovat pečlivě rozdělit stávající kód (napsaný v jazyce Java) na část nezávislou na databázi (z pohledu překladače SPARQLu do SQL tedy půjde o frontend) a část závislou na konkrétní databázi (backend). V další fázi by se přidala podpora pro databázi MariaDB. Na závěr by se provedly testy srovnávající efektivnost systému při použití jednotlivých databází (srovnávací dataset je již připraven). |
Seznam odborné literatury |
https://www.w3.org/TR/rdf11-primer/
https://www.w3.org/TR/sparql11-query/ https://jcheminf.biomedcentral.com/articles/10.1186/s13321-021-00515-1 https://jcheminf.biomedcentral.com/articles/10.1186/s13321-023-00729-5 |
Předběžná náplň práce |
Napsaný kód se stane součástí projektu IDSM (https://idsm.elixir-czech.cz) používaného na Ústavu organické chemie a biochemie AV ČR. |