Untersuchungen zum Metadatenmodell

Federführende Institutionen:

IT-Gruppe Geisteswissenschaften der Ludwig-Maximilians-Universität München (ITG)

Universitätsbibliothek der Ludwig-Maximilians-Universität München

Zusammenfassung:

Ziel des Arbeitspaketes ist es, ein Metadatenmodell zu finden bzw. anzupassen oder zu erweitern, das als Prototyp fachübergreifend in allen geisteswissenschaftlichen Projekten angewendet werden kann. Dabei wird die Maxime darin bestehen, vorhandene Metadatenstandards (wie zum Beispiel das schon von der Universitätsbibliothek München verwendete Datacite-Format) auf ihre Tauglichkeit hin zu überprüfen, eventuelle Defizite zu benennen, Vorschläge für Erweiterungen bzw. Anpassungen zu formulieren und diese an die Trägerinstitutionen zu übermitteln. Das Metadatenmodell soll einerseits eine möglichst große fachspezifische Flexibilität, etwa wie für die Abbildung eines Forschungsgegenstandes und dessen Annotationen erlauben, andererseits sollen alle zu einer umfassenden Projekt-, Daten- und Methodenbeschreibung erforderlichen Metadaten einheitlich und standardisiert darstellbar sein. Aus diesen Metadaten soll auch der Kerndatensatz Forschung” (KDSF) befüllt werden können.

Dem grundsätzlichen Problem der bis dato nicht erfolgten Etablierung bestehender Standards wird mit einem Schnittstellenkonzept begegnet, das die Überführung eines zu definierenden Referenzstandards (beispielsweise Datacite) in im Grunde beliebige andere Metadatenstandards erlaubt. Die Erarbeitung eines prototypischen Konzeptes zur Definition standardisierter Schnittstellen zwischen Einzelprojekten und Datenrepositorien, etwa der Universitätsbibliotheken, und von dort aus zu übergeordneten Forschungsinfrastrukturen, wie GeRDI, ist unerlässlich. In diesem Zusammenhang erfolgt in einem konkreten Testunterfangen die Übertragung von Forschungsdaten aus dem unter anderem an der ITG angesiedelten DFG-Langzeitprojekt VerbaAlpina in den im Aufbau befindlichen GeRDI-Index.

Forschungsdatenrepositorien sind oftmals auf die Metadatenelemente von Dublin Core beschränkt, da Dublin Core das einzige von der OAI-PMH Schnittstelle zwingend zu verwendende Metadatenschema ist. Die dort definierten Metadaten-Elemente sind zwar geeignet, einen Satz von Forschungsdaten zu beschreiben, jedoch ist ihr Ansatz zu generisch, um Forschungsdaten in ihrer Heterogenität und Tiefe beschreiben zu können. Darüber hinaus gibt es eine Vielzahl weiterer Schemata, die für die Beschreibung von Forschungsdaten bisher aber nur unzureichend eingesetzt werden, so beispielsweise bibliothekarische Normdaten. Ein weiteres Ziel des Arbeitspaketes ist es deshalb, für die Repositorien der UB der LMU, nämlich Open Data LMU und ORACC, die relevanten Metadatenschemata zu sichten und eine Empfehlung für den Einsatz der entsprechenden Schemata zu geben. Dies erfolgt in enger Zusammenarbeit mit der ITG.

Ebenso sollen durch die UB der LMU die Formal- und Sacherschließung von Forschungsdaten sowie komplementär oder alternativ die Nutzung von Techniken zur automatisierten Erschließung per Künstliche Intelligenz (KI) evaluiert werden. Bei der manuellen Erschließung soll insbesondere geprüft werden, inwieweit und mit welchen Modifikationen die bibliothekarischen Regelwerke und die zugrundeliegenden Metadatenschemata auf die Erschließung von Forschungsdaten angewendet werden können. Bei der Evaluierung von KI-gestützten Systemen wird vor allem die Semantik betrachtet, da sie in der (Literatur-)Suche eine zunehmend zentrale Stellung einnimmt. Denn der Vergleich von Zeichenketten, auf dem klassische Suchmaschinen basieren, führt in der Regel nur zu mittelmäßigen Ergebnissen. Es soll deshalb ebenso untersucht werden, ob und wie Semantik im Bereich Forschungsdatenmanagement eingesetzt werden kann.

In die Bewertung der Schemata soll auch die Kompatibilität mit dem GeRDI-Projekt einfließen, da die Verarbeitung der verwendeten Metadatenschemata durch das GeRDI-Projekt äußerst wünschenswert ist. Hierzu ist der Austausch mit dem Leibniz-Informationszentrum für Wirtschaft, das im GeRDI-Projekt für den Bereich Metadaten zuständig ist, vorgesehen. Erste wichtige Erkenntnisse sind dabei auch von dem laufenden Pilotprojekt mit VerbaAlpina zu erwarten. Ein weiteres Kriterium soll die potentielle Nutzung für ein Discovery System sein, das ebenso wie Discovery Systeme für klassische Publikationen auch für Forschungsdaten relevant ist (siehe Arbeitspaket 5). Idealerweise steht für alle Disziplinen der Geistes- und Kulturwissenschaften am Ende fest, welche fachübergreifenden Metadatenschemata (wie zum Beispiel re3data.org oder Schema 3.0) obligatorisch für alle Datensätze sind und welche fachspezifischen Metadatenschemata zu befüllen sind (wie CMDI).