Das Urheberrecht erlaubt zwar häufig die Analyse großer, zeitgenössischer Textsammlungen, verhindert jedoch viele Open‑Science‑Praktiken, die Transparenz, Reproduzierbarkeit und Wiederverwendbarkeit sicherstellen. Abgeleitete Textformate (ATF) lösen dieses Problem, da sie maschinell umgewandelte Versionen der Originaltexte darstellen, die keine urheberrechtlich geschützten Bestandteile mehr enthalten, während die für Disziplinen wie die Digital Humanities‑ (DH) und Natural Language Processing (NLP)-Forschung benötigten Informationen erhalten bleiben. Die so transformierten Texte können dann frei an andere Wissenschaftler:innen weitergegeben werden.
Wie ATF erstellt werden
Vier Grundoperationen werden verwendet und auf unterschiedlichen Granularitätebenen und Bezugsgrößen angewendet (z.B. Wort, Satz, Absatz, Werk, Korpus).
| Operation | Was sie bewirkt | Beispiel |
| Löschen | Entfernt ausgewählte Textteile. | Alle Dialogzeilen aus einem Drama entfernen – der verbleibende Text ist nicht mehr urheberrechtlich geschützt, kann aber z. B. für Netzwerk‑Analysen oder Sprachmodellierung genutzt werden. |
| Ersetzen | Ersetzt ausgewählte Textteile durch einen Platzhalter oder andere Zeichen. | Jeden Eigennamen durch „NAME“ ersetzen, um einen Text zu anonymisieren. |
| Behalten | Bewahrt nur die gewünschten Teile und verwirft alles andere. | Nur die Häufigkeit jedes Tokens (Wort oder Satzzeichen) speichern – ergibt ein so genanntes „Bag‑of‑Words“, das z. B. für Autor*innen‑Attribution verwendet werden kann. |
| Vertauschen | Ändert die Reihenfolge größerer Einheiten, etwa Sätze. | Die Sätze eines großen Korpus zufällig neu anordnen; sofern der Korpus ausreichend umfangreich ist und die einzelnen Sätze nicht selbst geschützt sind, gilt das Ergebnis als urheberrechtsfrei. |
Warum ATF wichtig sind
Durch strukturierte, rechtssichere Darstellungen von Texten ermöglichen ATF Forschenden aus Linguistik, Digital Humanities, Sprachtechnologie und anderen Disziplinen, die benötigten Daten zu nutzen, ohne das Urheberrecht zu verletzen. Kurz: ATF ermöglichen das Teilen und Wiederverwenden von textbasierten Forschungsdaten und wahren zugleich das Urheberrecht.
Mehr darüber:
Andere Beiträge
NFDI4Memory-Positionspapier „Damit wir auch zukünftig eine Vergangenheit haben – Für eine dem digitalen Zeitalter angemessene Ausbildung und Lehre in Archivwesen und Geschichtswissenschaft“ veröffentlicht
Das NFDI4Memory-Positionspapier warnt vor einem drohenden „Digital Dark Age“, das die historische Forschung erheblich einschränken könnte. Gleichzeitig zeigt die Summer School-Reihe, wie wichtig Austausch, Ausbildung und Datenkompetenz sind, um digitale Quellen langfristig zugänglich und verlässlich zu machen.
NFDI4DS Shared Tasks
NFDI4DS Shared AI Tasks bieten einen Rahmen für wissenschaftlich herausfordernde Aufgaben für die NFDI4DS Community. Ein Shared Task ist ein Wettbewerb, um ein Forschungsproblem auf dem Gebiet der Datenwissenschaften und KI zu lösen. NFDI4DS organisiert eine...
NFDI4DS Lecture Series
Wissen teilen und vernetzen in der KI-Community
Die NFDI4DS Lecture Series fördert den Austausch zu Datenwissenschaft und KI durch monatliche Online-Vorträge mit internationaler Beteiligung. Mit frei zugänglichen Aufzeichnungen stärkt sie Wissenstransfer und Zusammenarbeit in der Community.
Recent Comments