News

DBRepo: Verbesserung der Auffindbarkeit von Daten in Datenbanken durch strukturierte und einheiten-unabhängige Suche

Das .dcall 2023-Projekt „Structured & Unit Independent Search for DBRepo“ wurde erfolgreich abgeschlossen und treibt die digitale Transformation an der TU Wien voran.

Sotirios Tsepelakis und Martin Weise stehen nebeneinander und halten ein Poster mit dem Titel "Repository Infrastructure Supporting Virtual Research Environments" in den Händen.

© Valentin Futterer

Sotirios Tsepelakis und Martin Weise vom Zentrum für Forschungsdatenmanagement.

Hintergrund

Forschende müssen im Rahmen ihrer Arbeit häufig Forschungsdaten finden, nutzen und veröffentlichen. Um diese Daten im institutionellen Kontext ordnungsgemäß zu verwalten, haben wir DBRepo entwickelt. DBRepo ist ein Repository für Daten in Datenbanken, das Forschende dabei unterstützt, ihre Forschungsdaten auffindbar, zugänglich, interoperabel und wiederverwendbar zu machen. Das System verwaltet die Daten der Forscherin oder des Forschers und leitet daraus maschinenverwertbare Metadaten ab. Es ermöglicht einen transparenten Zugriff auf die eigenen Daten, während es gleichzeitig auch anderen die Möglichkeit gibt, die Daten zu erkunden. Als Ergebnis des .dcall 2023-Projekts haben wir ein Modul implementiert, das eine bessere Auffindbarkeit von Daten zum Beispiel nach dem semantischen Konzept und unabhängig von der Maßeinheit ermöglicht.

Strukturierte und einheitenunabhängige Suche

Als Anfang 2023 die ersten Datensätze in DBRepo hinterlegt wurden, stellten wir fest, dass die Auffindbarkeit aufgrund einer Freitextsuche sehr eingeschränkt ist. Vor allem die Genauigkeit hatte Entwicklungspotenzial, da eine Freitextsuche zu viele Ergebnisse lieferte, die für den Suchbegriff nicht relevant waren.

Diese Situation hat sich nach Abschluss des .dcall 2023-Projekts verbessert, da der Suchindex vollständig neu modelliert wurde. Er enthält nun eine optimierte Kopie der in DBRepo verfügbaren Metadaten, strukturiert in einem effizienten Datenmodell. Dies ermöglicht eine strukturierte Suche über alle wichtigen Komponenten wie Datenbanken, Tabellen, Spalten, Views, Identifier, Benutzer, Konzepte und Maßeinheiten hinweg und somit eine präzise Suche nach Bestandteilen. So kann zum Beispiel nach Datenbanken gesucht werden, die ein semantisches Konzept wie wd:temperature, öffnet eine externe URL in einem neuen Fenster enthalten. Die Suche erfolgt ähnlich wie das Filtern nach Kleidungsgröße, Farbe usw. in Webshops.

Um die Relevanz der Suchergebnisse weiter zu erhöhen, kann ein Benutzer außerdem Datensätze unabhängig von ihrer Maßeinheit durchsuchen, solange sie über ein gemeinsames semantisches Konzept und eine umwandelbare Maßeinheit verfügen. Dies ermöglicht eine einheitenunabhängige Suche, wie zum Beispiel das Abrufen von Datenbanken, die ein semantisches Konzept wd:temperature, öffnet eine externe URL in einem neuen Fenster und die Maßeinheiten om2:degreeCelsius, öffnet eine externe URL in einem neuen Fenster und om2:degreeFahrenheit, öffnet eine externe URL in einem neuen Fenster enthalten. Das Suchmodul kennt den richtigen Kontext und zeigt nur Ergebnisse an, die mit der Quelleinheit übereinstimmen.

Weitere Informationen

Webseite: https://www.ifs.tuwien.ac.at/infrastructures/dbrepo/, öffnet eine externe URL in einem neuen Fenster

Testinstanz: https://test.dbrepo.tuwien.ac.at, öffnet eine externe URL in einem neuen Fenster

.dcall 2023 Abschlusspräsentation: https://ec.tuwien.ac.at/~weise/pdf/dcall_final_presentation.pdf, öffnet eine externe URL in einem neuen Fenster

Danksagung

Wir möchten uns bei dem .digital-office für die großartige Zusammenarbeit und die Finanzierung durch den .dcall 2023 bedanken. Ebenfalls danken wir TU.it für die Rechenressourcen und die ebenfalls großartige Zusammenarbeit, sowie allen beteiligten Open-Source-Entwicklern (Martin Weise, Sotirios Tsepelakis, Nikola Lukic, Max Spannring, Gökay Güçlü, Geoffrey Karnbach).

Kontakt

TU Wien
Zentrum für Forschungsdatenmanagement
Favoritenstraße 16 (DG), 1040 Wien

research.data@tuwien.ac.at