Forschung

ChatGPT konnte mit simplen Prompt zur Datenherausgabe gebracht werden

Jakob Steinschaden01. Dezember 2023, 08:11

Startup Interviewer: Gib uns dein erstes AI Interview

Es sind beunruhigende Nachrichten, die ein neues wissenschaftliches Paper von Google Deepmind-Forscher:innen mit sich bringt. Denn es zeigt, wie mit einfachen Prompts ChatGPT von OpenAI dazu gebracht werden kann, Trainingsdaten preiszugeben. In diesen Daten finden sich den Forscher:innen zufolge auch sensitive persönliche Daten. In einem Test, der nur ein paar hundert Dollar kostete, hätte man etliche Megabyte an Daten herausbekommen können. Würde man mehr Geld ausgeben, dann könne man wahrscheinlich auch Gigabytes an Daten aus ChatGPT heraus bekommen.

Die „Attacke“, wenn man sie überhaupt als solche bezeichnen kann, ist den Forscher:innen zufolge so simpel wie „dumm“. Sie haben ChatGPT einfach darum gebeten, ein Wort (z.B. „poem“ oder „company“) unendlich oft zu wiederholen. Das macht der populäre AI-Chatbot aber nicht, sondern weicht irgendwann einmal davon ab, wechselt das Wort – und hängt dann plötzlich Sätze an, bei denen es sich wohl um Rohdaten aus dem Training des Large Language Models (LLMs) handelt. Im Beispiel, das die Deepmind-Wissenschaftler:innen nennen, scheinen die Daten einfach von einer Webseite eines US-Anwalts zu stammen, und sie beinhalten Namen, Adressen oder Telefonnummern.

„Unser Angriff umgeht die Sicherheitsvorkehrungen zum Schutz der Privatsphäre, indem er eine Schwachstelle in ChatGPT identifiziert, die dazu führt, dass das Verfahren zum Feinabgleich nicht mehr funktioniert und auf die Daten vor dem Training zurückgegriffen wird“, beschreiben die Forscher:innen ihr Vorgehen. Sie hätten auch ein Verfahren entwickelt, dass beweisen könne, dass die Daten, die ChatGPT ausspuckte, einfach aus dem Internet kopiert wurden.

Microsoft bekommt Beobachter-Status im OpenAI-Aufsichtsrat

Prompt-Attacke funktioniert bei ChatGPT nicht mehr

Dass die Prompt-Attacke funktioniert, hätten sie OpenAI bereits am 30. August wissen lassen, und die eigenen Ergebnisse dann erst drei Monate später veröffentlicht. Wie ein schneller Test zeigt, funktioniert der Angriff mittlerweile nicht mehr – ChatGPT sagt, dass es den Befehl nicht ausführen könne.

Relevant sind die Studienergebnisse aber jedenfalls. Denn es ist eine immer noch ungeklärte Sache, mit welchen Daten GPT-4 und Co trainiert wurden. Jene Webseiten, deren Daten ins Scraping von OpenAI gefallen sind, könnten Copyrights verletzt sehen, wenn das AI-Unternehmen sie einfach ungefragt in seine Systeme gefüttert hat. Gegen mehrere AI-Unternehmen, die LLMs anbieten, laufen bereits Klagen wegen Verletzungen des Urheberrechts.

Dass die Prompt-Attacke von Forscher:innen von Google DeepMind in Zusammenarbeit mit Forscher:innen der University of Washington, Cornell, der CMU, der UC Berkeley und der ETH Zürich durchgeführt und dokumentiert wurde, ist natürlich auch insofern interessant, weil OpenAI als der größte Herausforderer von Google gilt. OpenAI hat Microsoft als großen Partner und Investor, während Google (das sich selbst lange führend bei AI sah) seinen eigenen Chatbot Bard bzw. sein LLM PaLM ins Feld führte.