Metadaten und Mindestinformationen
Metadaten und ihre Schemata
Metadaten können als "Daten über Daten" beschrieben werden, d. h. es handelt sich um Daten, die Daten beschreiben, wie z. B. den Inhalt eines Datensatzes oder einer Datei, oder den Kontext dieser Daten. Spezifischere Beispiele könnten der Titel, Schlüsselwörter, die Erfassungsmethode mit einer bestimmten Analysetechnik sein, und die Liste ließe sich fortsetzen. Metadaten sollten von kontrollierten Vokabularen (idealerweise Ontologien) und/oder Datenformaten unterstützt werden.
Metadaten werden in dem Maße spezialisierter, wie der Bereich, den sie beschreiben, es wird, wobei die Hierarchie der Bereiche einer hierarchischen Metadatenstruktur entsprechen kann, die mehrere Ebenen von Standards ermöglicht, von allgemeineren Metadaten, die völlig bereichsunabhängig sind, bis hin zu spezifischeren.
Bereichsunabhängige Metadaten:
Metadaten können bereichsunabhängig sein und sich hauptsächlich auf Zitationsdetails konzentrieren, wie z. B. den Titel, die Schlüsselwörter, die beteiligten Personen und Institutionen oder Verweise auf andere Daten. Bereichsunabhängige Metadatenstandards können durch bereichsspezifischere Metadaten ergänzt werden.
-
Dublin Core ist ein allgemeiner Satz von fünfzehn Elementen zur Beschreibung vernetzter Ressourcen. Dieser Satz wurde seit seiner ersten Veröffentlichung im Jahr 1995 durch andere Standards angepasst und erweitert.
-
DataCite ist ein DOI-Anbieter, der ein Schema mit zentralen Metadaten für Forschungsdaten bereitstellt. Der Standard wird von der Gemeinschaft getragen und versucht, sich mit anderen Standards wie Dublin Core und ORCID Record Schema zu integrieren.
-
Die OpenAIRE Guidelines for Data Archive Managers stellen eine Infrastruktur zur Verfügung, die die Interoperabilität zwischen Repositories, die sich an diese Richtlinien halten, erleichtert und die Sichtbarkeit der Daten erhöht. OpenAIRE hat bereits das DataCite schema übernommen, allerdings mit einigen geringfügigen Anpassungen, wie z. B. der Akzeptanz anderer persistenter Identifizierungsschemata anstelle des DOI, und einigen Änderungen bei den Verpflichtungen von Eigenschaften.
-
PROV: Der W3C-Standard für Provenance-Informationen kann verwendet werden, um Informationen über die Herkunft wissenschaftlicher Daten bereitzustellen.
-
Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) ist ein Rahmenwerk für das Harvesting von Metadaten und kann auf eine Vielzahl von Metadatenformaten angewendet werden. Diese sollten immer Dublin Core-Metadaten enthalten.
Domänenspezifische Metadaten:
Metadaten können bereichsspezifisch sein, wie z. B. die Beschaffungsmethode mit einer bestimmten Analysetechnik oder der pH-Wert für eine bestimmte Reaktion, die für die meisten anderen Bereiche als die Chemie nicht gelten.
- Das Core Scientific Metadata Model (CSMD) ist ein Modell für wissenschaftliche Studien, das Entitätsklassen für Einrichtungen, Benutzer, Untersuchungen, Instrumente, Datendateien, Datensätze und Proben umfasst. Innerhalb dieser Klassen können die meisten Versuchsparameter und Ergebnisse erfasst werden. Zusätzlich gibt es Klassen für z.B. Publikationen, Datenformate und Probentypen. Neben einer Veröffentlichung der Spezifikation als UML (Unified Modeling Language) Klassen Modelldefinition, gibt es auch eine Darstellung als Ontologie. Zukünftige Versionen werden sich auf die Integration des PROV Modells konzentrieren.
- ISA (Investigation Study Assay) ist ebenfalls ein Metadaten-Framework, das sich auf biologische Untersuchungen konzentriert und über Schemata für die Darstellung in Datenformaten (ISA-Tab und JSON) verfügt. Es kann auf viele Methoden angewendet werden und ermöglicht die Einbeziehung von Ontologie-Referenzen für die Entitäten.
- IUPAC - FAIRSpec: Es deckt spektroskopische Daten einschließlich NMR-Spektroskopie ab. Dieses Projekt ist jedoch noch vorläufig und befindet sich in der Entwicklung.
Mindestinformationsstandards (MI)
Mindestinformationsstandards (MI) sind Richtlinien darüber, welche Metadaten bei der Meldung von Daten erforderlich sind. Darüber hinaus geben diese Richtlinien vor, welches Format sowohl für diese Informationen als auch für die Daten selbst zu verwenden ist. Die MI hängen von der Art der Daten ab und werden festgelegt, um sicherzustellen, dass die Daten gemäß den FAIR-Grundsätzen hinterlegt werden. Daher sind die Mindestinformationen eine Teilmenge der umfangreichen Metadaten, die den Daten beigefügt werden können.
Mindestinformationen für chemische Untersuchungen (MIChI)
Aufgrund der zunehmenden Menge an Daten, die durch Omics erzeugt werden, haben die Biologie und verwandte Disziplinen wie die Bioinformatik und die Biochemie eine große Anzahl von Mindestinformationsrichtlinien für verschiedene Methoden entwickelt. Diese wurden durch das Projekt Minimum Information for Biological and Biomedical Investigations (MIBBI) gefördert.
Obwohl der erforschte Teil des chemischen Raums zusammen mit den erzeugten chemischen Daten rasch zunimmt, gibt es nur wenige Versuche, Richtlinien für Mindestinformationen in der Chemie zu definieren, z. B. Metabolomics Standards Initiative (MSI) oder Collaboratory for the Multi-scale Chemical Sciences (CMCS). Die NFDI4Chem wird sich dieses Themas annehmen und arbeitet an Mindestinformationen für chemische Untersuchungen (MIChI), die Standards für Methoden wie Massenspektrometrie, kernmagnetische Resonanz und andere spektroskopische Methoden umfassen. Es werden bereits internationale Workshops durchgeführt, um die notwendige Diskussion über die MIChI zu beginnen.
Software-Projekte wie electronic lab notebooks oder repositories definieren oft eine eigene Schicht spezifischer Mindestmetadaten für chemische Experimente, die auf bestehenden Standards, z. B. für Metabolomics, basieren oder durch die von ihnen importierten data formats definiert sind.
Vorhandene Ontologien sind ein guter Ausgangspunkt für die Ermittlung der Informationen, die zur Beschreibung einer Methode, von Ergebnissen, Proben oder anderen Einheiten erforderlich sind. Darüber hinaus definieren kontrollierte Vokabulare und Ontologien, welche zusätzlichen Metadaten zulässig sind, um reichhaltige Metadaten zu erstellen, was wiederum die FAIRness der Daten verbessert. Beispiele für Formate mit entsprechenden Ontologien oder kontrollierten Vokabularen sind mzML, CIF, NeXus, und das Allotrope Data Format (ADF).
Die Chemical Analysis Metadata Platform (ChAMP) ist ein Projekt, das sich auf die Definition eines Rahmens für chemische Analysemethoden konzentriert.
Metadaten und die FAIR-Prinzipien
Die FAIR Guiding Principles gelten nicht nur für Daten, sondern auch für die zugehörigen Metadaten. Weitere Informationen finden Sie im FAIR-Artikel oder auf GoFair.
Metadaten sollten ebenso wie die Daten selbst mit eindeutigen persistent identifiers (PID) versehen werden, um in Veröffentlichungen und anderen Datensätzen referenziert werden zu können. Durch eine hierarchische Anordnung dieser PIDs kann jeder Parameter in den Metadaten einzeln referenziert werden. Maschinenlesbare Metadaten sollten in einem standardisierten Format bereitgestellt werden, während die Metadateneinheiten hinsichtlich ihrer Semantik und der Beziehungen zwischen den Einheiten und den eigentlichen Daten gut dokumentiert sein sollten. Dies kann durch die Definition der Metadaten in Form einer Ontologie oder eines Schemas, z. B. als XML oder JSON, erreicht werden. Schemata helfen bei der Indizierung von Metadaten für Suchmaschinen, Repositories oder andere Datenregister und tragen auch zur Verbesserung der Interoperabilität bei - dem I in FAIR. Die meisten der anderen FAIR-Richtlinien gelten auch für Metadaten.
Quellen und weitere Informationen
Ein kurzes Einführungsvideo zu Metadaten finden Sie hier: