Reddit blockiert Wayback Machine wegen unerlaubtem AI-Scraping

Reddit unterbindet aktuell, dass das Internet Archive weiterhin beliebte Threads zur Verfügung stellt. KI-Unternehmen dürfen laut Plattformregeln kein Scraping ohne Lizenz betreiben, um seine Modelle mit Reddit-Daten zu füttern. Manche umgehen die Richtlinie und haben sich laut Reddit an Daten aus Archivbeständen der vom Internet Archive betriebenen Wayback Machine bedient. Nun hat die Plattform präventive Maßnahmen ergriffen, um den Zugriff auf archivierte Inhalte zu kontrollieren.
Änderungen beim Archivierungsverfahren
Das kostenlose Online-Archiv Wayback Machine erstellt Kopien von Websites und ermöglicht es Nutzer:innen, eine Seite so zu betrachten, wie sie in der Vergangenheit aussah. Wie umfangreich diese Kopien ausfallen, kann dabei je nach Nachfrage und Relevanz stark variieren.
Ab sofort darf das Internet Archive nur noch Screenshots der Reddit-Startseite speichern. Zuvor wurden auf Beständigkeit ausgelegte Archive von Reddit-Seiten, Profilen und Kommentaren erstellt. Wie The Verge berichtet, wird das Archiv nur als Momentaufnahme beliebter Beiträge und Schlagzeilen des jeweiligen Tages nützlich sein. Als Backup für gelöschte Beiträge oder als Einblick in verschiedene Reddit-Subkulturen eignet es sich demnach nicht mehr.
Das Blockieren erfolgt im Kontext öffentlicher Diskussionen über Datenschutz und Nutzungsrechte. Einige User haben das Internet Archive genutzt, um gelöschte Kommentare oder Threads zu recherchieren. Allerdings betont Reddit zunehmend, dass das Archivieren gelöschter Inhalte zu datenschutzrechtlichen Problemen führen könne.
AI-Scraping für Trainingsdaten
Doch die Beschränkungen der Wayback Machine dienen nicht ausschließlich zum Schutz der Privatsphäre. Auch wirtschaftliche Interessen spielen eine große Rolle beim Eingreifen der Social-Media-Plattform. Denn: Reddit hat bereits lukrative Lizenzgeschäfte mit Unternehmen wie OpenAI und Google abgeschlossen. Alle KI-Entwickler, die nicht zahlen, dürfen Reddit-Threads nicht verwenden, um an Trainingsdaten zu gelangen. Erst im Juni hat Reddit aus diesem Grund Anthropic verklagt. Der Vorwurf: Die Bots des Claude-Entwicklers sollen seit Sommer 2024 mehr als 100.000 Mal unerlaubt auf Reddit-Inhalte zugegriffen haben.
Reddit sei über Fälle informiert, in denen KI-Unternehmen gegen die Plattformrichtlinien verstoßen und Daten aus der Wayback Machine abrufen. Momentan finden Gespräche mit dem Internet Archive statt, um eine Lösung zu finden, die den Schutz der User gewährleisten soll und gleichzeitig den Zugang zu archivierten Inhalten regelt. Die Situation verdeutlicht, wie technologische Fortschritte und wirtschaftliche Interessen das Spannungsfeld zwischen Offenheit und Datenschutz neu definieren.