Es ist eine der großen rechtlichen Fragen unserer Zeit: Wie dürfen die Macher von Large Language Models (LLMs) Inhalte aller Art dazu nutzen, um ihre AI-Modelle zu trainieren. Wie mehrmals berichtet, wurden etwa Unternehmen wie OpenAI, Stability AI oder Meta Platforms in den vergangenen Monaten mit Klagen seitens Autoren, Künstlern oder Zeitungen eingedeckt, die ihre Urheberrechte (bzw. Copyrights) verletzt sehen.

Einem Bericht von Dave Hansen und Yuanxiao Xu von der US-amerikanischen Authors Alliance zufolge waren die Copyright-Klagen gegen AI-Unternehmen bisher nicht sonderlich erfolgreich. „Im vergangenen Jahr haben sich zwei Dutzend Klagen im Zusammenhang mit KI und ihre unzähligen Verletzungsklagen durch das Gerichtssystem geschlängelt. Keine davon hat bisher ein Schwurgerichtsverfahren erreicht“, fassen sie zusammen.

Der Analyse von Hansen und Xu zufolge wurden bis dato die meisten Klagen, die sich auf den Digital Millennium Copyright Act (DMCA) beriefen, abgewiesen, unter anderem folgende:

J. Doe 1 v. GitHub

Tremblay v. OpenAI

Andersen v. Stability AI

Kadrey v. Meta Platforms

Silverman v. OpenAI

Ein Problem der Copyright-Klagen: Die Kläger konnten bisher nicht beweisen, dass die AI-Outputs automatisch als Copyright-Verletzungenseien, weil sie „keine konkreten Beweise dafür vorlegen können, dass ein Output einem übernommenen Werk im Wesentlichen ähnlich ist“. In der Klage der Künstler:innen Sarah Andersen, Kelly McKernan und Karla Ortiz gegen die Macher des Bild-Generators Stable Diffusion (Stability AI, DeviantArt und Midjourney) etwa hätte nicht bewiesen werden können, dass es zwischen den Werken dr Künstler:innen und den AI-Bildern „substantielle Ähnlichkeiten“ gebe.

Auch bei der Klage von Sarah Silverman, eine berühmte US-Comedian, gegen OpenAI hätte nicht ausreichend belegt werden können, dass die Texte, die ChatGPT ausspuckt, ausreichend ähnlich zu den Büchern von Silverman sind.

„Massive Verstöße beim Training generativer KI“

Aber nicht nur in den USA, auch in Europa befassen sich Rechtsexperten mittlerweile intensiv mit der Frage, ob und wie AI-Modelle Urheberrecht verletzen. Eine neue Studie mit dem Titel „Urheberrecht & Training generativer KI – technologische und rechtliche Grundlagen“ der Autoren Prof. Dr. Tim W. Dornis (Universität Hannover) und Prof. Dr. Sebastian Stober (Universität Magdeburg) hingegen kommt zu dem Schluss, dass europäische Urheberrechtsgesetze bei AI-Training greifen würden. Es würde sich nicht bloß um Text- und Data-Mining handeln, für das es Ausnahmen gibt.

„Wie ein genauerer Blick auf die Technologie generativer KI-Modelle offenbart, ist das Training solcher Modelle kein Fall von Text- und Data-Mining. Es handelt sich um eine Urheberrechtsverletzung – dafür ist nach deutschem und europäischem Urheberrecht keine gültige Schranke in Sicht“, so Dornis. Teile der Trainingsdaten von den aktuellen generativen Modellen würden ganz oder teilweise memorisiert und daher mit passenden Prompts von Endnutzern wieder generiert und somit vervielfältigt werden können, so Stober.

„Es gibt keine geeignete Urheberrechtsausnahme oder -beschränkung, um die massiven Verstöße zu rechtfertigen, die beim Training generativer KI auftreten. Dies betrifft das Kopieren geschützter Werke während der Datenerfassung, die vollständige oder teilweise Reproduktion innerhalb des KI-Modells und die Reproduktion von Werken aus den Trainingsdaten, die von den Endnutzern von KI-Systemen wie ChatGPT initiiert werden“, heißt es in einer Zusammenfassung der Studienergebnisse.