Internet Archive

Reddit blockiert Wayback Machine wegen unerlaubtem AI-Scraping

Reddit-App. © Brett Jordan on Unsplash
Reddit-App. © Brett Jordan on Unsplash
Startup Interviewer: Gib uns dein erstes AI Interview Startup Interviewer: Gib uns dein erstes AI Interview

Reddit unterbindet aktuell, dass das Internet Archive weiterhin beliebte Threads zur Verfügung stellt. KI-Unternehmen dürfen laut Plattformregeln kein Scraping ohne Lizenz betreiben, um seine Modelle mit Reddit-Daten zu füttern. Manche umgehen die Richtlinie und haben sich laut Reddit an Daten aus Archivbeständen der vom Internet Archive betriebenen Wayback Machine bedient. Nun hat die Plattform präventive Maßnahmen ergriffen, um den Zugriff auf archivierte Inhalte zu kontrollieren.

Änderungen beim Archivierungsverfahren

Das kostenlose Online-Archiv Wayback Machine erstellt Kopien von Websites und ermöglicht es Nutzer:innen, eine Seite so zu betrachten, wie sie in der Vergangenheit aussah. Wie umfangreich diese Kopien ausfallen, kann dabei je nach Nachfrage und Relevanz stark variieren.

Ab sofort darf das Internet Archive nur noch Screenshots der Reddit-Startseite speichern. Zuvor wurden auf Beständigkeit ausgelegte Archive von Reddit-Seiten, Profilen und Kommentaren erstellt. Wie The Verge berichtet, wird das Archiv nur als Momentaufnahme beliebter Beiträge und Schlagzeilen des jeweiligen Tages nützlich sein. Als Backup für gelöschte Beiträge oder als Einblick in verschiedene Reddit-Subkulturen eignet es sich demnach nicht mehr.

Das Blockieren erfolgt im Kontext öffentlicher Diskussionen über Datenschutz und Nutzungsrechte. Einige User haben das Internet Archive genutzt, um gelöschte Kommentare oder Threads zu recherchieren. Allerdings betont Reddit zunehmend, dass das Archivieren gelöschter Inhalte zu datenschutzrechtlichen Problemen führen könne.

AI-Scraping für Trainingsdaten

Doch die Beschränkungen der Wayback Machine dienen nicht ausschließlich zum Schutz der Privatsphäre. Auch wirtschaftliche Interessen spielen eine große Rolle beim Eingreifen der Social-Media-Plattform. Denn: Reddit hat bereits lukrative Lizenzgeschäfte mit Unternehmen wie OpenAI und Google abgeschlossen. Alle KI-Entwickler, die nicht zahlen, dürfen Reddit-Threads nicht verwenden, um an Trainingsdaten zu gelangen. Erst im Juni hat Reddit aus diesem Grund Anthropic verklagt. Der Vorwurf: Die Bots des Claude-Entwicklers sollen seit Sommer 2024 mehr als 100.000 Mal unerlaubt auf Reddit-Inhalte zugegriffen haben.

Reddit sei über Fälle informiert, in denen KI-Unternehmen gegen die Plattformrichtlinien verstoßen und Daten aus der Wayback Machine abrufen. Momentan finden Gespräche mit dem Internet Archive statt, um eine Lösung zu finden, die den Schutz der User gewährleisten soll und gleichzeitig den Zugang zu archivierten Inhalten regelt. Die Situation verdeutlicht, wie technologische Fortschritte und wirtschaftliche Interessen das Spannungsfeld zwischen Offenheit und Datenschutz neu definieren.

Werbung
Werbung

Specials unserer Partner

Die besten Artikel in unserem Netzwerk

Powered by Dieser Preis-Ticker beinhaltet Affiliate-Links zu Bitpanda.

Deep Dives

Startup & Scale-up Investment Tracker 2025

Die größten Finanzierungsrunden des Jahres im Überblick

Future{hacks}

Zwischen Hype und Realität
#glaubandich CHALLENGE Hochformat.

#glaubandich CHALLENGE 2025

Österreichs größter Startup-Wettbewerb - 13 Top-Investoren mit an Bord
© Wiener Börse

IPO Spotlight

powered by Wiener Börse

Trending Topics Tech Talk

Der Podcast mit smarten Köpfen für smarte Köpfe
Die 2 Minuten 2 Millionen Investoren. © PULS 4 / Gerry Frank

2 Minuten 2 Millionen | Staffel 12

Die Startups - die Investoren - die Deals - die Hintergründe

BOLD Community

Podcast-Gespräche mit den BOLD Minds

IPO Success Stories

Der Weg an die Wiener Börse

Weiterlesen