Meta soll tausende Copyrights von Büchern bei seinen AI-Modellen verletzen
Der Romanautor Christopher Farnsworth hat eine Sammelklage gegen Meta eingereicht, in der er dem Unternehmen vorwirft, seine und die Bücher anderer Autoren ohne Erlaubnis verwendet zu haben, um das KI-Modell Llama zu trainieren. Farnsworth fordert Schadensersatz und eine Verfügung zur Beendigung der mutmaßlichen Urheberrechtsverletzung und schließt sich damit einer wachsenden Gruppe von Urhebern an, die Technologieunternehmen wegen unerlaubten KI-Trainings verklagen.
Farnsworth behauptet, dass Meta Llama, das die KI-Chatbots des Unternehmens antreibt, mit Tausenden von raubkopierten Büchern gefüttert hat, um ihm beizubringen, wie es auf menschliche Eingaben reagieren soll. Auch andere Autoren wie Ta-Nehisi Coates, der ehemalige Gouverneur von Arkansas Mike Huckabee und die Komikerin Sarah Silverman haben ähnliche Sammelklagen gegen Meta vor demselben Gericht eingereicht, weil das Unternehmen ihre Bücher angeblich für das KI-Training verwendet hat.
196.640 Bücher in „The Pile“
Mehrere Gruppen von Urhebern, darunter Schriftsteller, bildende Künstler und Musikverlage, haben große Technologieunternehmen wegen der unerlaubten Nutzung ihrer Werke für das Training von generativen KI-Systemen verklagt. Die Unternehmen argumentieren, dass ihr KI-Training durch die Fair-Use-Doktrin des Urheberrechts geschützt sei und dass die Klagen die aufstrebende KI-Industrie bedrohen.
Das Grundproblem für Meta ist, dass es den Datensatz „The Pile“ verwendet hat, der 2020 von EleutherAI zusammengestellt und veröffentlicht wurde. Er ist etwa 886 GB groß, beinhaltet vor allem englische Texte aus unterschiedlichsten Quellen und dient als Trainingsdatensatz für große Sprachmodelle. In der Unterkategorie Books3 waren auch 196.640 Bücher von Autoren wie Stephen King, Margaret Atwood, Zadie Smith und eben auch Farnsworth. Zwar wurde Books3 im August 2023 nach einer Beschwerde der Rights Alliance aus „The Pile“ entfernt, war aber weiterhin über unterschiedliche andere Quellen verfügbar.
In der Sammelklage wird Meta Platforms nun vorgehalten, dass es für das Training seiner Llama-Modelle, die etwa auch den Chatbot Meta Ai antreiben, diese 196.640 Bücher verwendet hätte. Die Llama-Modelle wiederum werden von Meta als Open-Source-Modelle am Markt angeboten, im Prinzip kann sich jede Firma (mit einigen Ausnahmen) daran bedienen.