Das Urheberrecht erlaubt zwar häufig die Analyse großer, zeitgenössischer Textsammlungen, verhindert jedoch viele Open‑Science‑Praktiken, die Transparenz, Reproduzierbarkeit und Wiederverwendbarkeit sicherstellen. Abgeleitete Textformate (ATF) lösen dieses Problem, da sie maschinell umgewandelte Versionen der Originaltexte darstellen, die keine urheberrechtlich geschützten Bestandteile mehr enthalten, während die für Disziplinen wie die Digital Humanities‑ (DH) und Natural Language Processing (NLP)-Forschung benötigten Informationen erhalten bleiben. Die so transformierten Texte können dann frei an andere Wissenschaftler:innen weitergegeben werden.
Wie ATF erstellt werden
Vier Grundoperationen werden verwendet und auf unterschiedlichen Granularitätebenen und Bezugsgrößen angewendet (z.B. Wort, Satz, Absatz, Werk, Korpus).
| Operation | Was sie bewirkt | Beispiel |
| Löschen | Entfernt ausgewählte Textteile. | Alle Dialogzeilen aus einem Drama entfernen – der verbleibende Text ist nicht mehr urheberrechtlich geschützt, kann aber z. B. für Netzwerk‑Analysen oder Sprachmodellierung genutzt werden. |
| Ersetzen | Ersetzt ausgewählte Textteile durch einen Platzhalter oder andere Zeichen. | Jeden Eigennamen durch „NAME“ ersetzen, um einen Text zu anonymisieren. |
| Behalten | Bewahrt nur die gewünschten Teile und verwirft alles andere. | Nur die Häufigkeit jedes Tokens (Wort oder Satzzeichen) speichern – ergibt ein so genanntes „Bag‑of‑Words“, das z. B. für Autor*innen‑Attribution verwendet werden kann. |
| Vertauschen | Ändert die Reihenfolge größerer Einheiten, etwa Sätze. | Die Sätze eines großen Korpus zufällig neu anordnen; sofern der Korpus ausreichend umfangreich ist und die einzelnen Sätze nicht selbst geschützt sind, gilt das Ergebnis als urheberrechtsfrei. |
Warum ATF wichtig sind
Durch strukturierte, rechtssichere Darstellungen von Texten ermöglichen ATF Forschenden aus Linguistik, Digital Humanities, Sprachtechnologie und anderen Disziplinen, die benötigten Daten zu nutzen, ohne das Urheberrecht zu verletzen. Kurz: ATF ermöglichen das Teilen und Wiederverwenden von textbasierten Forschungsdaten und wahren zugleich das Urheberrecht.
Mehr darüber:
Andere Beiträge
Humanities@NFDI: Gemeinsam für nachhaltige Forschungsdaten
Fächerübergreifende Kooperation für den Erhalt des kulturellen Erbes
Die Humanities@NFDI-Initiative vereint vier NFDI-Konsortien, um Forschungsdaten aus den Geistes- und Kulturwissenschaften nachhaltig zugänglich und nachnutzbar zu machen. Durch gemeinsame Standards, Vokabulare und Community-Formate stärkt die Zusammenarbeit die Vernetzung und schafft die Grundlage für interdisziplinäre Forschung.
QualidataNet von KonsortSWD-NFDI4Society ist der „central point of entry“ für qualitative Daten und ihre Nachnachnutzung
QualidataNet – Gemeinsam qualitative Forschungsdaten sichtbar und nutzbar machen
QualidataNet ist der zentrale Zugangspunkt für die Nachnutzung, Archivierung und das Forschungsdatenmanagement qualitativer Forschungsdaten. Über das Suchportal werden qualitative Daten verschiedener Anbieter sichtbar und auffindbar gemacht. Mit praxisnahen Handreichungen, Tools wie dem Open-Source-Anonymisierungstool QualiAnon sowie internationaler Standardisierungsarbeit unterstützt QualidataNet Forschende, Lehrende und Institutionen im Umgang mit qualitativen Daten. Gleichzeitig stärkt das Netzwerk Austausch, Kooperation und die Kultur der Datennachnutzung innerhalb der Community.
Forum4MICA – Making Information Commonly Available (KonsortSWD I NFDI4Society)
Forum4MICA – Wissen zu Forschungsdaten gemeinsam zugänglich machen
Forum4MICA bündelt Informationen zu Forschungsdaten aus den Sozial-, Verhaltens-, Bildungs- und Wirtschaftswissenschaften auf einer zentralen Plattform. Forschende können dort Fragen zu komplexen Datensätzen stellen, Antworten von Expert:innen aus Forschungsdatenzentren erhalten und sich mit der Community austauschen. So entsteht ein nachhaltiges Wissensarchiv für Forschungsdatenmanagement und wissenschaftliche Vernetzung.
Recent Comments