Datenbeschreibung und -annotation
Um einen Datensatz am besten zu verstehen, sei es für Sie selbst, Ihre Arbeitsgruppe oder andere in der wissenschaftlichen Gemeinschaft, muss er klar beschrieben werden. Zu diesem Zweck sind die Datenkommentierung und die Datenbeschreibung wichtige Aspekte der Datenverwaltung und -analyse.
Bei der Datenbeschreibung geht es darum, einen detaillierten Überblick über die Daten zu geben, einschließlich ihrer Merkmale, ihres Formats, ihrer Struktur und aller relevanten Zusammenhänge. Bei der Annotation von Forschungsdaten werden den Daten Beschriftungen oder Notizen hinzugefügt, um sie für die Analyse leichter verständlich und zugänglich zu machen. Durch die Verwendung umfangreicher maschinenlesbarer Metadaten können sowohl Menschen als auch Maschinen fundierte Entscheidungen über die Eignung der Daten für ihre Forschung treffen.
Ein weiterer zu berücksichtigender Aspekt für die Wiederverwendung von Daten ist die Datenprovenienz, die ein Teil der Metadaten sein kann. Im Zusammenhang mit wissenschaftlichen Daten und Datenmanagement bedeutet Provenienz die Dokumentation, woher das Datenmaterial stammt und mit welchen Verfahren und Methoden es erzeugt wurde. Beim Konzept der Provenienz geht es also um das Vertrauen, die Glaubwürdigkeit und die Reproduzierbarkeit von Forschungsergebnissen, und es kann Informationen wie das Erstellungsdatum, die erstellenden Personen, die verwendeten Instrumente, die verwendete Software und die angewandten Datenverarbeitungsmethoden umfassen.
Darüber hinaus können Metadaten, die für die Datenbeschreibung oder -anmerkung verwendet werden, semantisch beschrieben werden, indem kontrollierte Vokabulare oder besser noch Ontologien verwendet werden, um Mehrdeutigkeit zu reduzieren und sie maschinenlesbar und maschinenverstehbar* zu machen. Dies erleichtert die Suche und das Auffinden von Datensätzen für Maschinen und Menschen gleichermaßen.
Hauptautor: ORCID:0000-0003-4480-8661