Stealth-Crawler: Perplexity soll Sperren für Content-Crawling umgehen

Der Internet-Infrastruktur-Anbieter Cloudflare hat das KI-Unternehmen Perplexity AI beschuldigt, „Stealth-Crawler“ zu verwenden, um Webseitensperren zu umgehen. Laut Cloudflare griff Perplexity weiterhin auf Inhalte zehntausender Websites zu, obwohl diese den Zugang explizit blockiert hatten.
Vorwürfe und technische Details
Cloudflare gab am Montag bekannt, dass es Perplexity aus seinem Verified-Bot-Programm entfernt und Blockaden gegen die als irreführend charakterisierten Scraping-Praktiken implementiert hat. Der Konflikt entstand, nachdem Cloudflare-Kunden sich beschwert hatten, dass Perplexity ihre Seiten trotz robots.txt-Direktiven und spezifischen Firewall-Regeln weiterhin durchsuchte.
In Tests stellten Cloudflare-Ingenieure fest, dass Perplexity angeblich raffinierte Umgehungstechniken einsetzt. Das Unternehmen soll nicht nur seine deklarierten Crawler verwenden, sondern auch generische Browser-Simulationen, die Google Chrome auf macOS imitieren. Diese verdeckten Crawler nutzten laut Cloudflare mehrere IP-Adressen außerhalb von Perplexitys offiziellem IP-Bereich und rotierten diese, um Website-Blockaden zu umgehen.
Perplexitys Reaktion
Nach Cloudflares Angaben generieren Perplexitys „deklarierte“ Crawler täglich 20-25 Millionen Anfragen, während die nicht deklarierten Stealth-Crawler weitere 3-6 Millionen Anfragen pro Tag hinzufügen. Diese Aktivität wurde über zehntausende Domains und Millionen von Anfragen täglich beobachtet.
Perplexity AI bestreitet die Vorwürfe. Ein Sprecher des 2022 gegründeten Unternehmens aus San Francisco bezeichnete die Anschuldigungen gegenüber TechCrunch als nichts weiter als einen Cloudflare-„Verkaufspitch“. Perplexity, das nach einer Finanzierungsrunde im vergangenen Monat mit 18 Milliarden Dollar bewertet wird, reagierte nicht auf weitere Kommentaranfragen.
Breiterer Kontext
Der Vorfall ist Teil einer größeren Debatte über das Verhältnis zwischen KI-Unternehmen und Content-Erstellern. Cloudflare CEO Matthew Prince kritisierte das aus seiner Sicht nicht nachhaltige Extrahieren von Web-Inhalten durch KI-Firmen. Während Google einen Besucher für alle 18 durchsuchten Seiten sendet, verschlechterte sich OpenAIs Verhältnis von 250 vor sechs Monaten auf 1.500 heute.
Als Reaktion hat Cloudflare technische Maßnahmen implementiert, einschließlich Signatur-Abgleichen für Stealth-Crawler in seinen verwalteten Regeln. Das Unternehmen entwickelt außerdem Tools wie ein „AI-Labyrinth“, das nicht-konforme Bots in Labyrinthen aus falschen Inhalten fängt, sowie einen „Pay-per-Crawl“-Marktplatz, der es Publishern ermöglichen würde, KI-Unternehmen für den Zugang zu ihren Inhalten zu berechnen.
Mehr als eine Million Websites haben sich bereits dafür entschieden, KI-Crawler zu blockieren, darunter große Publisher wie Associated Press, Time, The Atlantic und Reddit.