Zum Hauptinhalt springen

Datenspeicherung und Archivierung

Wenn Sie planen, Daten zu sammeln und zu Informationen zu verarbeiten, sollten Sie verschiedene Arten der Speicherung im Hinblick auf Sicherheit, Sicherung, Zugriffszeit und gemeinsame Nutzung mit anderen in Betracht ziehen. Es ist auch von Interesse, wie man die Rechenressourcen für die Datenverarbeitung und -analyse abschätzen kann. Es gibt unterschiedliche Anforderungen für den gesamten Datenlebenszyklus. Im Hinblick auf die in einem Projekt verwendeten Arbeitsabläufe sollte auch auf die Sicherung dieser Arbeitsabläufe und Werkzeuge (Softwareversion!) geachtet werden, um die Reproduzierbarkeit der Ergebnisse zu gewährleisten.

Workflow-Perspektive

Lassen Sie uns verschiedene Speicherlösungen entlang eines möglichen Workflows diskutieren. Denken Sie an alle möglichen Datenquellen, die in Ihrem Projekt Daten liefern, z. B. Laborausrüstung (Geräte), manuell gesammelte Daten oder externe Daten aus Veröffentlichungen oder von Projektpartnern. Einige Geräte können kontinuierlich automatisch Datenpunkte liefern, während andere regelmäßig Dateien zur Sammlung bereitstellen. Reduzieren Sie die Menge auf die für Ihr Projekt erforderlichen Datenpunkte, berücksichtigen Sie eine mögliche Vorverarbeitung und schätzen Sie die anfallenden Daten in Bezug auf Häufigkeit und Umfang ab. Es ist möglich, dass Daten bereits verarbeitet werden können, während andere Daten desselben Typs noch erfasst werden. An welcher Stelle des Workflows werden die Daten mit weiteren Metadaten annotiert und funktioniert dies eventuell auch automatisch? Welche beschreibenden Dokumente werden von menschlichen Quellen bereitgestellt und wann?

Denken Sie bei der Planung der Datenverwaltung über Speicherlösungen nach und beantragen Sie im Voraus die kurz- und langfristige Speicherung.

Erforderliche Anforderungen bei der Konzeption eines Speichersystems:

  • Platzbedarf für die Sammlung oder Erzeugung von Rohdaten einschließlich temporärer Dateien ("Fast Storage")
  • Platzbedarf für Daten, auf die während der Projektlaufzeit permanent zugegriffen werden kann
  • Anforderungen an den Zugriff auf die Daten (im Falle von Kooperationsprojekten), wie und zu welchem Zweck soll auf die Daten zugegriffen werden
  • Anforderungen an die Übertragungsgeschwindigkeit
  • Möglichkeiten der gemeinsamen Nutzung, Richtlinien für die gemeinsame Nutzung von Daten außerhalb des Instituts, Compliance und Rechteverwaltung
  • schreibgeschützte Kopie der ursprünglichen Rohdaten an einem separaten Ort (nicht bearbeitbar)
  • wie lange die Rohdaten sowie die Datenverarbeitungspipelines und Analyse-Workflows aufbewahrt werden müssen, insbesondere nach Abschluss des Projekts
  • Metadaten: Kennung und Dateibeschreibung, die mit Ihren Daten verbunden sind
  • Anforderungen an die Versionskontrolle zur Verfolgung von Änderungen, Konfliktlösung, Datenbetreuung und Rückverfolgungsmöglichkeiten

Beziehen Sie das IT-Team Ihrer Heimatorganisation mit ein, es kann Sie auch zu einem abgestuften Speichersystem beraten:

  • "hot" Speicher: schnelle Zugriffsgeschwindigkeit, hohe Zugriffshäufigkeit, Daten mit hohem Wert -> hohe Kosten
  • "cold" Speicher: niedrige Zugriffsgeschwindigkeit und -häufigkeit, in der Regel außerhalb des Unternehmens -> niedrige Kosten
  • Aufbewahrungslösungen (Datenarchivierungsdienste)

Keine Datensicherung? Keine Gnade!

Die 3-2-1-0-Regel:

  • Es sollten 3 Kopien der Daten vorhanden sein
  • auf 2 verschiedenen Medien
  • wobei 1 Kopie offline ist
  • und es sollte 0 Probleme im Falle einer Wiederherstellung geben. (Testen Sie also regelmäßig Ihre Backups...)

Und warum? Manchmal ist es kein technisches Problem, sondern ein "Layer-8"-Problem: menschliches Versagen.

Ok, ich habe mich verirrt - das ist bei weitem nicht mein Geschäft.

Viele der Anforderungen werden oft durch spezielle Repositorien gelöst. Es lohnt sich auch, einen Blick auf Gruppenlaufwerke oder Cloud-Dienste wie NextCloud (vor Ort) zu werfen. Ihr lokales IT-Team und Ihr Rechenzentrum werden Ihnen mit den Diensten helfen, die sie normalerweise unterstützen. Aber trotzdem: Achten Sie darauf, dass Sie zusammen mit den Daten eine gute Dokumentation (z. B. README-Datei) und Metadaten erstellen. Prüfen Sie, ob Ihr Institut ein (Meta-)Datenmanagementsystem anbietet, wie z.B. iRODS, DataVerse, FAIRDOM-SEEK oder OSF.

Nirvana - Ihre Daten im FAIR-Paradies

Konservierung

Relevante (Meta-)Daten sollten (um die Reproduzierbarkeit zu gewährleisten) für einen bestimmten Zeitraum aufbewahrt werden, der in der Regel von den Geldgebern oder den Richtlinien der Einrichtung festgelegt wird. Die Frage, wo Daten aufbewahrt werden sollen, die nicht mehr für die aktive Verarbeitung oder Analyse benötigt werden, ist eine häufige Frage im Datenmanagement.

siehe FDMKit

Dokumentation oder Konvertierung von Dateien in Langzeitsicherungsformate. Die datenhaltende Einrichtung muss ihrerseits Sicherheit, Qualität und Verfügbarkeit gewährleisten. Berücksichtigen Sie bei der Veröffentlichung personenbezogener Daten etwaige Lizenzbestimmungen oder Datenschutzbestimmungen.

Wenn Sie Ihre Daten in öffentlichen Repositorien veröffentlichen, werden Ihre Daten ebenfalls aufbewahrt.

Quellen und weitere Informationen