Vom „Schritt Null“ zur vollen Reproduzierbarkeit: So ermöglicht DataPLANT konsortienübergreifende Datenanalysen.
Im Forschungsdatenmanagement gilt die sichere Speicherung und Beschreibung von Daten oft als das Ziel. Für Forschende ist dies jedoch nur der „Schritt Null“. Der wahre Wert von Forschungsdaten liegt in ihrer Wiederverwendbarkeit: in der Möglichkeit, Analysen unmittelbar zu reproduzieren oder neue Methoden auf bestehende Datensätze anzuwenden.
Wir von DataPLANT rücken die dynamische Nutzbarkeit in den Fokus und gehen über die statische Archivierung hinaus. Wir nutzen den Annotated Research Context (ARC) nicht nur als Container für Dateien, sondern als Träger für ausführbare Logik. Damit schließt unser Konsortium die Lücke zwischen Datenarchiven und Hochleistungsrechnern (HPC).
Der ARC als digitales Analyse-Rezept
Kern dieser Innovation ist die Integration von Standard-Workflow-Sprachen wie CWL und der Galaxy-Plattform. Jeder ARC enthält einen strukturierten Prozessgraphen – eine Art digitalen Bauplan, der exakt dokumentiert, wie Daten generiert und analysiert wurden. Diese Struktur kann von Rechenplattformen direkt interpretiert werden.
In der Praxis bedeutet dies, dass Forschende einen publizierten Datensatz übernehmen und die Analyse praktisch per „Play“-Knopf erneut ausführen können. Der vollständige Workflow der ursprünglichen Autoren wird automatisch ausgeführt, wodurch echte Reproduzierbarkeit ermöglicht wird und neue Analysen erleichtert werden.
Eine konsortienübergreifende Initiative
Diese Form der Interoperabilität erfordert Standards, die über einzelne Disziplinen hinausgehen. DataPLANT arbeitet deshalb aktiv mit anderen NFDI-Konsortien zusammen, insbesondere mit FAIRagro und Mitgliedern der BioData Interest Group. Gemeinsam stimmen wir die Spezifikationen für unsere Infrastrukturen ab.
Ein föderiertes Ökosystem ohne Hürden
Unser Ziel ist eine vernetzte Forschungslandschaft, in der technische Grenzen verschwinden. Eine Pflanzenwissenschaftlerin soll einen ARC nutzen und die darin enthaltenen Workflows auf einem Galaxy-Server eines anderen Konsortiums oder auf einem lokalen HPC-Cluster ausführen können. Dies geschieht ohne manuellen Transfer von Terabytes an Daten und ohne, dass Code neu geschrieben werden muss.
Durch die Harmonisierung technischer Standards innerhalb der NFDI stellen wir sicher, dass FAIR-Daten mehr als nur auffindbar sind: Sie sind unmittelbar nutzbar, reproduzierbar und bereit für neue wissenschaftliche Erkenntnisse.
Über DataPLANT:
- https://nfdi4plants.org/
Information zu DataPLANT und dem ARC-Infrastruktur
ARCitect Desktop App:
- https://github.com/nfdi4plants/ARCitect
Grafisches Interface zur Erstellung von ARCs.
DataPLANT Knowledge Base:
- https://nfdi4plants.github.io/nfdi4plants.knowledgebase/
Schritt-für-Schritt-Anleitungen zur Erstellung eines ARCs.
Galaxy Plant Server:
- https://plants.usegalaxy.eu/
Galaxy-Instanz für die Pflanzenforschung und die Ausführung von Workflows
Galaxy Integration Knowledge Base:
- https://nfdi4plants.org/nfdi4plants.knowledgebase/resources/galaxy/
Dokumentation zur Verwendung des ARC-Ökosystems mit der Galaxy-Plattform
CWL Knowledge Base:
- https://nfdi4plants.org/nfdi4plants.knowledgebase/cwl/
Anweisungen zur Integration der Common Workflow Language (CWL) in ARCs
Common Workflow Language (CWL):
- https://www.commonwl.org/
Offizielle Website für den offenen Standard zur Beschreibung von Analyse-Workflows
Andere Beiträge
NFDI4Memory-Positionspapier „Damit wir auch zukünftig eine Vergangenheit haben – Für eine dem digitalen Zeitalter angemessene Ausbildung und Lehre in Archivwesen und Geschichtswissenschaft“ veröffentlicht
Das NFDI4Memory-Positionspapier warnt vor einem drohenden „Digital Dark Age“, das die historische Forschung erheblich einschränken könnte. Gleichzeitig zeigt die Summer School-Reihe, wie wichtig Austausch, Ausbildung und Datenkompetenz sind, um digitale Quellen langfristig zugänglich und verlässlich zu machen.
NFDI4DS Shared Tasks
NFDI4DS Shared AI Tasks bieten einen Rahmen für wissenschaftlich herausfordernde Aufgaben für die NFDI4DS Community. Ein Shared Task ist ein Wettbewerb, um ein Forschungsproblem auf dem Gebiet der Datenwissenschaften und KI zu lösen. NFDI4DS organisiert eine...
NFDI4DS Lecture Series
Wissen teilen und vernetzen in der KI-Community
Die NFDI4DS Lecture Series fördert den Austausch zu Datenwissenschaft und KI durch monatliche Online-Vorträge mit internationaler Beteiligung. Mit frei zugänglichen Aufzeichnungen stärkt sie Wissenstransfer und Zusammenarbeit in der Community.
Recent Comments