Vom „Schritt Null“ zur vollen Reproduzierbarkeit: So ermöglicht DataPLANT konsortienübergreifende Datenanalysen.

Im Forschungsdatenmanagement gilt die sichere Speicherung und Beschreibung von Daten oft als das Ziel. Für Forschende ist dies jedoch nur der „Schritt Null“. Der wahre Wert von Forschungsdaten liegt in ihrer Wiederverwendbarkeit: in der Möglichkeit, Analysen unmittelbar zu reproduzieren oder neue Methoden auf bestehende Datensätze anzuwenden.

Wir von DataPLANT rücken die dynamische Nutzbarkeit in den Fokus und gehen über die statische Archivierung hinaus. Wir nutzen den Annotated Research Context (ARC) nicht nur als Container für Dateien, sondern als Träger für ausführbare Logik. Damit schließt unser Konsortium die Lücke zwischen Datenarchiven und Hochleistungsrechnern (HPC).

Der ARC als digitales Analyse-Rezept

Kern dieser Innovation ist die Integration von Standard-Workflow-Sprachen wie CWL und der Galaxy-Plattform. Jeder ARC enthält einen strukturierten Prozessgraphen – eine Art digitalen Bauplan, der exakt dokumentiert, wie Daten generiert und analysiert wurden. Diese Struktur kann von Rechenplattformen direkt interpretiert werden.

In der Praxis bedeutet dies, dass Forschende einen publizierten Datensatz übernehmen und die Analyse praktisch per „Play“-Knopf erneut ausführen können. Der vollständige Workflow der ursprünglichen Autoren wird automatisch ausgeführt, wodurch echte Reproduzierbarkeit ermöglicht wird und neue Analysen erleichtert werden.

Eine konsortienübergreifende Initiative

Diese Form der Interoperabilität erfordert Standards, die über einzelne Disziplinen hinausgehen. DataPLANT arbeitet deshalb aktiv mit anderen NFDI-Konsortien zusammen, insbesondere mit FAIRagro und Mitgliedern der BioData Interest Group. Gemeinsam stimmen wir die Spezifikationen für unsere Infrastrukturen ab.

Ein föderiertes Ökosystem ohne Hürden

Unser Ziel ist eine vernetzte Forschungslandschaft, in der technische Grenzen verschwinden. Eine Pflanzenwissenschaftlerin soll einen ARC nutzen und die darin enthaltenen Workflows auf einem Galaxy-Server eines anderen Konsortiums oder auf einem lokalen HPC-Cluster ausführen können. Dies geschieht ohne manuellen Transfer von Terabytes an Daten und ohne, dass Code neu geschrieben werden muss.

Durch die Harmonisierung technischer Standards innerhalb der NFDI stellen wir sicher, dass FAIR-Daten mehr als nur auffindbar sind: Sie sind unmittelbar nutzbar, reproduzierbar und bereit für neue wissenschaftliche Erkenntnisse.

Über DataPLANT:

ARCitect Desktop App: 

DataPLANT Knowledge Base:

Galaxy Plant Server:

Galaxy Integration Knowledge Base:

CWL Knowledge Base:

Common Workflow Language (CWL):

Andere Beiträge

Beiträge

NFDI4Memory-Positionspapier „Damit wir auch zukünftig eine Vergangenheit haben – Für eine dem digitalen Zeitalter angemessene Ausbildung und Lehre in Archivwesen und Geschichtswissenschaft“ veröffentlicht

Das NFDI4Memory-Positionspapier warnt vor einem drohenden „Digital Dark Age“, das die historische Forschung erheblich einschränken könnte. Gleichzeitig zeigt die Summer School-Reihe, wie wichtig Austausch, Ausbildung und Datenkompetenz sind, um digitale Quellen langfristig zugänglich und verlässlich zu machen.

mehr lesen