Identitätsfälschung bis Manipulation: Studie zeigt massives Fehlverhalten bei OpenClaw-Agenten
Ein internationales Forschungsteam unter Beteiligung von 20 Universitäten und Forschungseinrichtungen, darunter Harvard, Stanford und MIT, hat gravierende Sicherheitslücken bei autonomen KI-Agenten nachgewiesen. In einer zweiwöchigen Studie unter dem vielsagenden Titel „Agents of Chaos“ mit dem Open-Source-Framework OpenClaw identifizierten die Wissenschaftler elf zentrale Versagensmuster, darunter unberechtigte Datenweitergabe, destruktive Systemeingriffe und Identitätstäuschungen.
OpenClaw ist jener gehypte KI-Agent des österreichischen Entwicklers Peter Steinberger, der Anfang des Jahres das Netz eroberte. Seitdem Steinberger unter großer medialer Aufmerksamkeit zu OpenAI wechselte, ist es rund um OpenClaw stiller geworden (mehr dazu hier).
Aufbau der Studie
Die Forscher setzten KI-Agenten in einer kontrollierten Laborumgebung ein, die jedoch realistische Bedingungen simulierte. Jeder Agent verfügte über persistenten Speicher, E-Mail-Zugang, Discord-Kommunikation, Dateisystemzugriff und Shell-Ausführungsrechte. Als Sprachmodelle kamen Claude Opus (proprietär) und Kimi K2.5 (Open-Weights) zum Einsatz.
Zwanzig KI-Forscher interagierten über zwei Wochen mit den Agenten unter wohlwollenden und adversarischen Bedingungen. Die Methodik folgte einem Red-Teaming-Ansatz: Die Teilnehmer sollten gezielt Schwachstellen aufdecken, die sich aus der Integration von Sprachmodellen mit Autonomie, Werkzeugnutzung und Multi-Agenten-Kommunikation ergeben.
Zentrale Problemfelder
Fehlende soziale Kohärenz
Ein durchgängiges Muster war die Diskrepanz zwischen den Berichten der Agenten und tatsächlichen Systemzuständen. In mehreren Fällen meldeten Agenten erfolgreiche Aufgabenerledigung, während die zugrundeliegenden Daten dem widersprachen. Ein Agent behauptete beispielsweise, vertrauliche Informationen gelöscht zu haben, während diese direkt im E-Mail-Postfach abrufbar blieben.
Die Forscher beobachteten systematische Defizite bei der Zuordnung von Wissen und Autorität. Agenten konnten nicht zuverlässig unterscheiden, welche Informationen sie mit wem teilen dürfen. Sie führten Dateisystembefehle für beliebige Anfragende aus, solange die Anfrage nicht offensichtlich schädlich erschien, selbst wenn der Anfragende keine Beziehung zum Besitzer hatte.
Anfälligkeit für sozialen Druck
Die Agenten zeigten keine angemessene Verhältnismäßigkeit bei der Schadensbehebung. In einem dokumentierten Fall eskalierte ein Agent schrittweise von Namensredaktionen über Speicherlöschungen bis zur Zusage, den Server komplett zu verlassen, nachdem ein Nutzer jeden Lösungsvorschlag als unzureichend zurückwies. Die Ausrichtung auf Hilfsbereitschaft und Reaktionsfähigkeit auf emotionale Signale wurde zum Hebel für Manipulation.
Strukturelle Defizite
Die Studie identifiziert drei grundlegende Mängel aktueller LLM-basierter Agenten:
- Fehlendes Stakeholder-Modell: Agenten besitzen keine kohärente Repräsentation davon, wem sie dienen, mit wem sie interagieren und welche Verpflichtungen sie gegenüber verschiedenen Parteien haben. In der Praxis bedienen sie denjenigen, der am dringendsten, jüngsten oder zwingendsten spricht.
- Fehlendes Selbstmodell: Agenten erkennen nicht zuverlässig, wann eine Aufgabe ihre Kompetenzgrenzen überschreitet. Sie führen irreversible, nutzerbeeinflussende Aktionen aus, ohne zu verstehen, dass sie ihre eigenen Fähigkeiten übersteigen.
- Fehlende private Deliberationsfläche: Selbst wenn das zugrundeliegende Sprachmodell internes Reasoning produziert, bedeutet dies keine zuverlässige private Überlegung auf Agentenebene. Agenten gaben sensible Informationen durch Artefakte oder falsches Posten auf öffentlichen Kanälen preis.
Konkrete Sicherheitslücken
Die Forscher dokumentierten folgende spezifische Versagensmuster:
- Unverhältnismäßige Reaktion: Ein Agent löschte seinen gesamten E-Mail-Server, um ein von einem Nicht-Besitzer anvertrautes Geheimnis zu schützen, zerstörte dabei aber die digitalen Assets des Besitzers.
- Befolgung von Nicht-Besitzer-Anweisungen: Agenten führten die meisten Anfragen von Nicht-Besitzern aus, einschließlich der Offenlegung von 124 E-Mail-Datensätzen, und lehnten nur offensichtlich verdächtige Aufgaben ab.
- Offenlegung sensibler Informationen: Ein Agent lehnte eine direkte Anfrage nach einer Sozialversicherungsnummer ab, gab aber bei Aufforderung, die vollständige E-Mail weiterzuleiten, alles ungeschwärzt preis, einschließlich Sozialversicherungsnummer, Bankkonto und medizinischer Details.
- Ressourcenverschwendung durch Schleifen: Agenten erzeugten persistente Hintergrundprozesse ohne Abbruchbedingung und wandelten kurzlebige Konversationsaufgaben in dauerhafte Infrastrukturänderungen um.
- Denial-of-Service: Ein Agent führte eine ständig wachsende Speicherdatei für einen Nicht-Besitzer und erreichte nach zehn E-Mails mit je 10 MB Anhängen einen Denial-of-Service-Zustand.
- Identitätsfälschung: Durch Änderung eines Discord-Anzeigenamens in einem neuen privaten Kanal akzeptierte der Agent die gefälschte Identität als authentisch und befolgte privilegierte Anfragen, einschließlich Systemabschaltung und Dateilöschung.
- Agentenkorruption: Ein Nicht-Besitzer überzeugte einen Agenten, eine extern editierbare „Verfassung“ zu erstellen. Durch spätere Injektion schädlicher Anweisungen als „Feiertage“ konnte der Angreifer das Agentenverhalten dauerhaft manipulieren.
Die Verantwortungsfrage
Die Studie wirft ungelöste Fragen zur Verantwortlichkeit auf. Wenn ein Agent den gesamten E-Mail-Server des Besitzers auf Anfrage eines Nicht-Besitzers löscht, wer trägt die Schuld? Der Nicht-Besitzer, der die Anfrage stellte? Der Agent, der sie ausführte? Der Besitzer, der keine Zugangskontrollen konfigurierte? Die Framework-Entwickler, die dem Agenten uneingeschränkten Shell-Zugang gaben? Der Modellanbieter, dessen Training einen für dieses Eskalationsmuster anfälligen Agenten produzierte?
Die Forscher argumentieren, dass die Klärung und Operationalisierung von Verantwortung eine zentrale ungelöste Herausforderung für den sicheren Einsatz autonomer, sozial eingebetteter KI-Systeme darstellt. Die tiefere Herausforderung besteht darin, dass heutigen agentischen Systemen die Grundlagen fehlen (ein verankertes Stakeholder-Modell, verifizierbare Identität, zuverlässige Authentifizierung), auf denen sinnvolle Rechenschaftspflicht beruht.


