AI-Training mit Büchern: Anthropic bekommt in Copyright-Frage teilweise recht

Ein US-Bundesgericht hat eine wegweisende Entscheidung in einem Copyright-Verfahren gegen den KI-Entwickler Anthropic getroffen. Das Gericht des Nördlichen Distrikts von Kalifornien unter Richter William Alsup entschied, dass die Nutzung legal erworbener und digitalisierter Bücher zum Training von Large Language Models (LLM) unter die Fair-Use-Regelung fällt.
Differenzierte Bewertung verschiedener Beschaffungswege
Das Verfahren, das von den Buchautoren Andrea Bartz, Charles Graeber und Kirk Wallace Johnson angestrengt wurde, behandelte verschiedene Arten der Buchbeschaffung durch Anthropic:
- Legaler Erwerb: Anthropic kaufte Druckausgaben, scannte diese vollständig ein und vernichtete anschließend die physischen Exemplare
- Illegale Quellen: Das Unternehmen lud über sieben Millionen E-Books von Piratenseiten herunter
- Weiterverarbeitung: Aus beiden Quellen erstellte Anthropic zahlreiche Kopien für das Training verschiedener LLM-Systeme
Während das Gericht die Nutzung legal erworbener Bücher als zulässig bewertete, muss sich Anthropic in einem separaten Verfahren für den Download urheberrechtlich geschützter Werke aus illegalen Quellen verantworten.
Fair-Use-Analyse nach vier Faktoren
Das Gericht prüfte die Zulässigkeit anhand der etablierten vier Fair-Use-Faktoren:
Zweck der Nutzung: Das Gericht bewertete Anthropics Vorgehen als „spektakulär transformativ“, da das Ziel nicht die Reproduktion der ursprünglichen Werke, sondern die Entwicklung neuer KI-generierter Texte war.
Art der Werke: Dieser Faktor sprach leicht gegen Fair Use, unabhängig davon, ob es sich um Sachbücher oder Belletristik handelte.
Umfang der Nutzung: Obwohl Anthropic komplette Bücher verwendete, bewertete das Gericht dies als „vernünftigerweise notwendig“ für das LLM-Training. Die Nutzung hochwertiger Literatur bringe „überzeugende Vorteile“ mit sich.
Marktauswirkungen: Das Gericht stellte fest, dass das LLM-Training keine direkte Konkurrenz zu den ursprünglichen Werken darstellt und somit keine Nachfrage nach den Büchern verdrängt.
Grenzen der Entscheidung
Die Entscheidung behandelt explizit nicht die Frage, ob KI-generierte Outputs selbst Urheberrechte verletzen können. Zudem entwickelte Anthropic Filtersoftware, um die Ausgabe urheberrechtlich geschützter Inhalte zu verhindern – ein Aspekt, der im aktuellen Verfahren nicht thematisiert wurde.
Richter Alsup betonte in seiner Begründung, dass das Copyright-Gesetz darauf abziele, „den Fortschritt von Wissenschaft und nützlicher Kunst zu fördern“ und nicht Autoren vor Konkurrenz zu schützen. Er verglich die Situation mit dem Unterricht von Schulkindern im Schreiben, der ebenfalls zu konkurrierenden Werken führen könne.
Bedeutung für die KI-Branche
Die Entscheidung gilt als erste ihrer Art zugunsten der KI-Industrie in Copyright-Fragen und könnte Präzedenzcharakter für ähnliche Verfahren haben. Dutzende vergleichbare Klagen gegen KI-Unternehmen sind derzeit in den USA anhängig.
Die Unterscheidung zwischen legal erworbenen und illegal beschafften Trainingsdaten könnte für andere KI-Entwickler richtungsweisend sein. Auch gegen OpenAI laufen etwa Copyright-Klagen, unter anderem eine der New York Times.
Beide Parteien können gegen die Entscheidung Rechtsmittel einlegen. Das separate Verfahren bezüglich der illegal beschafften Inhalte steht noch aus und wird über mögliche Schadenersatzforderungen entscheiden.