Zum Hauptinhalt springen

Lebenszyklus von Forschungsdaten

Einleitung

Data LifeCycle

In der wissenschaftlichen Arbeit ist die Sicherstellung einer guten Forschungspraxis oberstes Gebot.

Um dies zu gewährleisten, ist ein professioneller Umgang mit Forschungsdaten von besonderer Bedeutung. Zur Veranschaulichung des Umgangs mit Forschungsdaten gibt es verschiedene Modelle wie das Domänenmodell oder das Lebenszyklusmodell für Forschungsdaten. Das Lebenszyklusmodell für Forschungsdaten beschreibt die Lebensdauer der Daten und darüber hinaus anhand verschiedener Phasen von der Planung bis zur Veröffentlichung oder bewussten Löschung. Für den Lebenszyklus von Forschungsdaten gibt es je nach Einrichtung, Geldgeber usw. unterschiedliche Ansätze für dasselbe Modell. Dem Datenlebenszyklus können unterschiedliche Prioritäten beigemessen werden. Der von NFDI4Chem verfolgte Ansatz ist in der Abbildung auf der rechten Seite dargestellt.

Phase 1: Versuchsplanung

In Phase 1 beginnen Sie mit der Planung Ihres Versuchsplans sowie mit der Planung Ihrer Datenverwaltung (Formate, Speicherung …). In dieser Planungsphase sollten bereits vorhandene Daten ausfindig gemacht und der rechtliche Rahmen für die Nutzung geprüft werden. Sie sollten sich über die verschiedenen Anforderungen der Forschungsförderer, Ihrer Universität, Ihrer Einrichtung und Ihrer Gemeinschaft im Klaren sein und einen ersten Entwurf Ihres Datenmanagementplans (DMP) erstellen. In diesem ersten Entwurf sollten Sie die Zuständigkeiten festlegen.

Phase 2: Experiment/Datenerhebung

In dieser Phase werden neue Daten geschaffen oder gesammelt, z. B. durch chemische Synthese, Simulationen von Molekülen oder Messungen an Proben. Achten Sie bei der Durchführung des jeweiligen Experiments darauf, dass Sie auch die relevanten Metadaten, die die Daten beschreiben, erstellen oder aufzeichnen. Die Dokumentation der erstellten Daten mit allen weiteren Informationen und Metadaten sollte in einem (elektronischen) Laborjournal festgehalten werden.

Wenn Sie vorhandene Daten oder Proben verwenden, klären Sie die Nutzungsrechte. In diesem Fall können Ihnen Provenienz-Metadaten Auskunft geben. Darüber hinaus sollte eine Verknüpfung zwischen den vorhandenen Daten und den neu erzeugten Daten hergestellt werden. Dies ist eine relevante Information und hilft Ihnen in der Wiederverwendungsphase.

Phase 3: Verarbeitung der Daten

In der Phase der Datenverarbeitung sollten die gesammelten Daten digitalisiert werden, wenn sie nicht direkt in einem digitalen Format vorliegen und soweit dies möglich ist. Ein elektronisches Laborjournal kann bei diesem Schritt sehr hilfreich sein und führt die Daten zusammen - egal ob digital oder digitalisiert. Darüber hinaus sollten Sie darüber nachdenken, weitere Informationen und Metadaten zu den Daten zu sammeln. Denken Sie dabei an die verschiedenen Arten von Metadaten wie beschreibende, administrative oder strukturelle Metadaten. Die Anreicherung der Daten mit weiteren, maschinenlesbaren Metadaten macht die Daten durchsuchbar. Außerdem ist in dieser Phase die Qualitätssicherung wichtig. Prüfen, validieren und bereinigen Sie die Daten! Sie sollten die Daten speichern und eine Datensicherung erstellen.

Phase 4: Analyse

In der 4. Phase geht es, wie der Name schon sagt, um die Analyse und Interpretation der Daten. Nach der Analyse der Daten sollten die Daten ausgewertet werden. Sie sollten auch in Erwägung ziehen, die Daten in einer geschlossenen und sicheren Umgebung, z. B. auf Projekt- oder Arbeitsgruppenebene, mit Kollegen zu teilen. Sichere Umgebungen für die gemeinsame Nutzung von Daten werden häufig von Universitäten oder Bundesländern über Sync&share-Lösungen bereitgestellt. Wenden Sie sich diesbezüglich an Ihr lokales Forschungsdatenteam.

Bevor Sie Daten weitergeben, sollten Sie prüfen, ob die Daten einem Urheberrechtsschutz oder anderen Schutzrechten unterliegen.

Phase 5: Offenlegung/Veröffentlichung

Während des Austauschs und der damit verbundenen Überlegungen zu den Daten sollten Sie über die Archivierung und Nutzung der Daten in wissenschaftlichen Publikationen nachdenken. Wenn Sie keine Kriterien für die Archivierung kennen und in Ihrer Arbeitsgruppe oder Ihrem Institut keine Kriterien festgelegt sind, können Entscheidungshilfen wie die vom DCC skizzierten "5 steps to decide what data to keep" helfen. Anhand der festgelegten Kriterien wird entschieden, welche der gesammelten Rohdaten archiviert und welche bewusst gelöscht werden sollen.

Neben den Kriterien ist die Migration der Daten in geeignete Formate und auf geeignete Medien wichtig für die Archivierung der Daten. In diesem Schritt sollten die Daten wiederum mit Metadaten angereichert werden, damit sie auch in Zukunft ohne weiteres Wissen über die Daten verstanden werden können. Neben der Archivierung spielt auch die Veröffentlichung der Daten eine besondere Rolle. Viele Forschungsförderer erwarten, dass die Daten veröffentlicht werden, wenn keine besonderen Gründe dagegen sprechen, wie z. B. eine Vertraulichkeitsvereinbarung oder die Einbeziehung personenbezogener Daten. Für die Veröffentlichung von Daten wird ein chemiespezifisches oder chemiebezogenes Repositorium wie das Chemotion Repository, NOMAD oder MassBank empfohlen. Eine Übersicht über Repositories findet sich z.B. bei re3data.org oder fairsharing.org. re3data.org ermöglicht es, Repositories nach bestimmten Kriterien wie der Vergabe eines persistenten Identifikators oder des Zugangs zu filtern. Die Veröffentlichung von Daten erfolgt häufig zu bestimmten Meilensteinen, zum Beispiel in Verbindung mit einer Textveröffentlichung oder am Ende eines Projekts. Die endgültige Fassung des Datenverwaltungsplans ist ebenfalls am Ende eines Projekts erforderlich.

Phase 6: Wiederverwendung

In der Phase der Wiederverwendung erforschen Sie oder andere, wie die Daten in einen neuen Kontext gestellt werden können und wie neue Ideen generiert werden können. Fragen wie: Wie kann ich meine Synthesestrategie weiterentwickeln? Welche Einstellungen muss ich bei meinen spektroskopischen Messungen ändern? und so weiter werden in dieser Phase weiterentwickelt. Neue Anwendungsszenarien können auch in der Chemie oder in anderen Disziplinen entstehen, z. B. bei Big-Data-Anwendungen. Darüber hinaus können diese Daten und die daraus gewonnenen Erkenntnisse auch für Lehr- und Lernzwecke wertvoll sein.

Um diese Daten in den Kreislauf zurückführen zu können, ist es wichtig, dass diese Daten detailliert mit Metadaten beschrieben sind, eine ordentliche Dokumentation in Form eines DMP durchgeführt wurde und die Daten zitierfähig sind.

Wie groß ist das Potenzial Ihrer Daten?

Quellen und weitere Informationen