Ein einfacher Leitfaden für Anbieter von Datenveröffentlichungsinfrastrukturen
Als Infrastrukturanbieter ist die Erleichterung der Bereitstellung von Daten von entscheidender Bedeutung für die Verbesserung der Zugänglichkeit von Forschungsergebnissen und der Zusammenarbeit innerhalb der wissenschaftlichen Gemeinschaft. In diesem Leitfaden werden wesentliche Empfehlungen und Überlegungen zur Verbesserung der Datenveröffentlichungspraktiken in Ihren Repositorien dargelegt. Dabei wird berücksichtigt, dass die meisten Forschenden ihre Forschungsdaten zusammen mit einem Artikel in einer wissenschaftlichen Zeitschrift veröffentlichen.
Dieser Leitfaden basiert auf unseren Standards für die Veröffentlichung von Daten für Infrastrukturanbieter. Sie können die vollständige Liste der Standards am Ende dieses Artikels einsehen.
1. Metadaten sollten Teil eines Datensatzes sein
Datensaätze, die von Forschungsdatenrepositorien bereitgestellt werden, sollten standardisierte, maschinenlesbare Metadaten in Datensätzen enthalten, die von Forschern heruntergeladen und mit anderen Ressourcen ausgetauscht werden. Generische und technische Metadaten werden mit dem Datensatz während des Hochladevorgangs verknüpft, während bereichsspezifische Repositories Metadaten aus analytischen Datendateien extrahieren, die von Forschern im Rahmen ihrer Arbeitsabläufe im Labor bereitgestellt werden (z. B. Chemotion ELN). Nach dem Abruf der Daten sollten diese Metadaten in dem heruntergeladenen Paket intakt bleiben, wobei beschreibende DataCite Metadaten eine Mindestanforderung darstellen. Eine Lösung zur Gewährleistung einer zuverlässigen Dateiübertragung ist die Verwendung von BagIt, das die Aufnahme von Metadaten in heruntergeladene Datensätze ermöglicht.
2. Strukturierte domänenspezifische Metadaten einbeziehen
Forschungsdatenrepositorien sollten strukturierte, domänenspezifische Metadaten in Datensätze aufnehmen, die von Forscherinnen und Forschern heruntergeladen und mit anderen Ressourcen ausgetauscht werden. Neben generischen Schemata wie das Metadatenschema von DataCite erhöht die Einbeziehung von Schema.org-Metadaten durch Tools wie RO-Crate oder die Kombination von RO-Crate mit BagIt sowohl die Zuverlässigkeit als auch den Reichtum der Metadaten. Durch die Einbeziehung von Informationen über den Kontext einer bestimmten Domäne erhöhen domänenspezifische Metadaten die Relevanz, Genauigkeit und damit die Wiederverwendbarkeit.
3. Informieren Sie Autorinnen und Autoren über rechtliche Fragen zu Datensatzzusammenfassungen
Repositorien sollten die Autoren über mögliche Rechtekonflikte informieren, wenn sie Zusammenfassungen verwandter Artikel als Beschreibungen in Datensatzfeldern verwenden; aufgrund von Urheberrechtsbedenken werden stattdessen separate Beschreibungen empfohlen.
4. Lizenzen nach Typ gruppieren
Lizenzen, die von Forschungsdatenrepositorien angeboten werden, sollten in Kategorien gruppiert werden, die zwischen Forschungsdatenlizenzen und Softwarelizenzen unterscheiden; dies vereinfacht die Auswahlprozesse für Nutzenden, die sich durch lange Listen bewegen.
5. Förderung von Creative-Commons-Lizenzen
Um die Auswahl der Lizenzen zu vereinfachen, sollten die Infrastrukturanbieter Autorinnen und Autoren anweisen, bei der Veröffentlichung von Forschungsdaten [Creative-Commons-Lizenzen] (https://creativecommons.org/share-your-work/cclicenses/) zu wählen - Lizenzoptionen, die nicht restriktiver sind als CC BY, werden dringend empfohlen.
6. Förderung der am wenigsten einschränkenden Creative-Commons-Lizenzen
Um die Offenheit innerhalb gemeinsam genutzter Datensätze zu fördern, sollten Repositorien Lizenzen wie CC0 oder CC BY für den Umgang mit Daten gegenüber restriktiveren Alternativen wie CC BY-SA oder CC BY-NC-ND vorschlagen, die Möglichkeiten der Wiederverwendung einschränken können; gemeinsam genutzte Werke sollten so offen wie möglich sein, um anderen die größtmögliche Freiheit bei der Nutzung zu ermöglichen!
7. Schöpferinnen/Schöpfer, Autorinnen/Autoren und Mitwirkende
Forschende bezeichnen die Personen, die an der Veröffentlichung von Ergebnissen beteiligt sind, in der Regel als Autorinnen und Autoren, insbesondere wenn sie mit wissenschaftlichen Verlagen zusammenarbeiten. In DataCite wird jedoch zwischen Autorinnen/Autoren und Mitwirkenden unterschieden, wobei den Mitwirkenden bestimmte Rollen zugewiesen werden. Um die Verwirrung der Forschenden bei der Veröffentlichung ihrer Daten zu minimieren, sollten die Repositorien das Feld für die Erstellerinnen bzw. den Erstellern in ihren (DataCite-)Metadaten-Editoren mit _AutorInnen/ErstellerInnen kennzeichnen.
8. Information zu Herausgeber in DataCite Metadaten einbeziehen
Repositorien für Forschungsdaten sollten ihren Namen als "Herausgeber" ("Publishers") zusammen mit einem "publisherIdentifier" in die DataCite-Metadatenfelder jedes Datensatzes aufnehmen, die vom Repositoriensystem automatisch ausgefüllt werden, ohne dass der Benutzer Änderungen vornehmen kann.
Beispiel:
Herausgeber: RADAR4Chem
publisherIdentifier: http://doi.org/10.17616/R31NJNAY
publisherIdentifierScheme: re3data
schemeURI: https://re3data.org/
In XML:
<publisher xml:lang="en" publisherIdentifier="http://doi.org/10.17616/R31NJNAY" publisherIdentifierScheme="re3data" schemeURI="https://re3data.org/">RADAR4Chem</publisher>
Dadurch wird sichergestellt, dass sowohl für Menschen als auch für Maschinen klar erkennbar ist, wo die einzelnen Datensätze veröffentlicht wurden.
9. Bereitstellung von Sammlungs-DOIs zum Umfassen mehrerer Datensätze
Repositorien für Forschungsdaten sollten eine Sammlungs-DOI bereitstellen, die relevante Forschungsdatenobjekte umschließt, die mit einem einzelnen zur Veröffentlichung bestimmten Artikel verbunden sind. Während fachspezifische Repositorien DOIs für einzelne chemische Reaktionen oder Moleküle anbieten können, bieten multidisziplinäre Repositorien DOIs für ganze veröffentlichte Datensätze. Um die Einreichung von Manuskripten zu erleichtern, sollte jedes Repositorium den Autoren die Möglichkeit bieten, einen Sammlungs-DOI zu generieren, der die in ihren Datenverfügbarkeitserklärungen genannten Daten umfasst.
10. Zugang zu schreibgeschützten Datensätzen in Begutachtung gewähren
Um die Einbeziehung von Datensätzen in die Begutachtung von Manuskripten zu erleichtern, sollten Forschungsdatenrepositorien den Zugang zu Datensätzen, die begutachtet werden, über eine zugängliche URL ermöglichen, wobei der Status "nicht editierbar" bis zum Ende der Begutachtung beibehalten wird.
11. Verwendung von URLs für den Zugriff von Begutachterinnen und Begutachtern
URLs, die auf die zu begutachtenden Datensätze zugreifen, sollten die Zugangsdaten enthalten und keine separaten Anmeldeinformationen erfordern. Dadurch werden mögliche Fehler bei der Kommunikation zwischen Begutachterinnen und Begutachtern und Einreichungssystemen vermieden.
12. Korrekturen und Aktualisierungen von Metadaten zulassen
Forschungsdatenspeicher sollten es Forschern ermöglichen, Metadaten aufgrund möglicher Fehler bei der ersten Eingabe zu korrigieren und zu aktualisieren. Die Versionierung von Daten/Metadaten kann die Transparenz in Bezug auf Änderungen, die im Laufe der Zeit vorgenommen wurden, erhöhen und gleichzeitig die Gesamtbeschreibungen von Datensätzen gemäß den [FAIR-Grundsätzen] (/docs/fair/) anreichern (F2. Dies ermöglicht es den Autorinnen und Autoren auch, Datensätze mit den entsprechenden Artikel-DOIs zu aktualisieren, wenn die Daten vor der Annahme oder Veröffentlichung des Artikels veröffentlicht wurden.
13. Zugang zu Metadaten während der Embargofrist gewähren
Datensätze, die unter einem Embargo veröffentlicht werden, sollten den Zugriff auf den Datensatz einschränken und gleichzeitig sicherstellen, dass die Metadaten zugänglich bleiben - Veröffentlichung mit Embargo. Diese Praxis ermöglicht es, dass relevante Informationen über den Datensatz gemäß den FAIR-Prinzipien (A2) abrufbar sind, während den Autorinnen und Autoren die Erstrechte an ihren Daten eingeräumt werden.
14. Zum Scholix.org Framework beitragen und es nutzen
Repositorien für Forschungsdaten sollten zu [Scholix.org] (https://scholexplorer.openaire.eu/) beitragen und es nutzen, da es einen Rahmen für die Verbesserung der Verbindungen zwischen wissenschaftlicher Literatur und Forschungsdaten über verschiedene digitale Objekte hinweg bietet. Scholix-Hubs wie DataCite oder OpenAire liefern wertvolle Informationen über verknüpfte digitale Objekte, sodass akademische Verlage entsprechende Datensätze auch nach der Veröffentlichung von Artikeln finden können.
Ressourcen und weiterführende Literatur
- NFDI4Chem - Deliverable D3.3.1: Gap analysis report for selected repositories
- CoreTrustSeal-Anforderungen 2023-2025
- COAR Community Framework for Good Practices in Repositories, Version
Standards
- Forschungsdatenrespositorien sollten die Metadaten in durch Forschende heruntergeladene Datensätze oder mit anderen Resourcen ausgetauschten Datensätzen einschließen.
- Forschungsdatenrepositorien sollten strukturierte, fachspezifische Metadaten in Datensätze einschließen, die von Forschenden heruntergeladen und/oder mit anderen Ressourcen ausgetauscht werden.
- Forschungsdatenrepositorien sollten Autorinnen, Autoren, Datenkuratorinnen und Datenkuratoren über mögliche Rechtekonflikte für das Feld "Abstract" in den DataCite-Metadaten der Datensätze informieren.
- In Forschungsdatenrepositorien sollten die Lizenzen in Gruppen für Forschungsdatenlizenzen und Softwarelizenzen unterteilt werden.
- Forschungsdatenrepositorien sollten Forschende ermutigen, sich für eine Creative-Commons-Lizenz zu entscheiden, um die Lizenzlandschaft und ihre Wahl zu vereinfachen.
- Forschungsdatenrepositorien sollten Lizenzen wie CC0 oder CC BY vorschlagen, indem sie eine solche Lizenz vorauswählen, anstatt restriktivere Lizenzen wie CC BY-SA oder sogar CC BY-NC-ND, die die Wiederverwendung behindern können.
- Forschungsdatenrepositorien sollten Felder für Creators in ihrem (DataCite-)Metadaten-Editor als Author/Creator bezeichnen.
- Forschungsdatenrepositorien sollten den Namen des Repositoriums als "publisher" sowie einen "publisherIdentifier" in den DataCite-Metadaten eines Datensatzes angeben.
- Forschungsdatenrepositorien sollten eine Sammlungs-DOI bereitstellen, um Forschungsdatenobjekte, die für einen einzelnen zu veröffentlichenden Artikel relevant sind, zusammenzufassen.
- Forschungsdatenrepositorien sollten Zugang zu Datensätzen gewähren, die im Status unter Begutachtung sind.
- URLs für den Zugang zu Datensätzen in Begutachtung sollten die Zugangsdaten codiert in der URL enthalten.
- Forschungsdatenspeicher sollten es Forschern ermöglichen, die Metadaten von Datensätzen zu korrigieren und zu aktualisieren.
- Daten von Datensätze, die mit einer Sperrfrist veröffentlicht werden, sollten unzugängliche sein, während die Metadaten verfügbar sein sollten.
- Forschungsdaten-Repositorien sollten zu Scholix.org beitragen und es nutzen.
Hauptbeitragende: ORCID:0000-0003-4480-8661, ORCID:0000-0002-6243-2840