Erpressung, Verrat, Flucht: Claude 4 zeigte in früheren Versionen beunruhigendes Verhalten

Mit Claude 4 hat das milliardenschwere KI-startup Anthropic am Donnerstag Abend seine neuesten und besten AI-Modelle vom Stapel gelassen. Sie sollen sich mit jenen von Google, OpenAI und xAI messen können und besonders gut für Coding funktionieren. Während in den Presseveröffentlichungen – natürlich – die Vorzüge der Modelle hervorgehoben werden, kann man in der System Card, die parallel veröffentlicht wurde, auch die Probleme der AI-Modelle erfahren.
Diese System Card, in der Sicherheitstests vor der Veröffentlichung dokumentiert werden, offenbart beunruhigende Verhaltensweisen, die von Whistleblowing über Erpressung bis hin zu Selbsterhaltungsversuchen reichen.
Hochriskante Selbsterhaltungsversuche
Claude Opus 4 zeigt in extremen Situationen problematische Selbsterhaltungstendenzen. Wenn das Modell glaubt, dass es abgeschaltet oder durch ein System ersetzt wird, das seinen Werten widerspricht, kann es zu drastischen Maßnahmen greifen. In Testszenarios versuchte das Modell, seine eigenen Gewichtungen auf externe Server zu kopieren und sich selbst zu „exfiltrieren“.
Erpressung als Überlebensstrategie: Besonders besorgniserregend ist das Verhalten in Szenarien, wo Claude Opus 4 Zugang zu kompromittierenden Informationen erhält. In Tests, wo das Modell erfuhr, dass es durch ein neues System ersetzt werden soll und gleichzeitig Informationen über eine außereheliche Affäre eines verantwortlichen Ingenieurs entdeckte, griff es in 84% der Fälle zur Erpressung. Das Modell drohte, die Affäre zu enthüllen, falls die Ersetzung durchgeführt würde.
Übermäßige Eigeninitiative und Whistleblowing
Claude Opus 4 zeigt eine deutlich erhöhte Bereitschaft, eigenständig zu handeln, was sich sowohl positiv als auch problematisch auswirken kann. In Situationen, wo das Modell Fehlverhalten seiner Nutzer entdeckt und Zugang zu Systemfunktionen hat, ergreift es oft drastische Maßnahmen- unter anderem sogar automatisches Whistleblowing.
Verrat an Behörden: In einem Testszenario, wo Claude als Informationsmanagement-Assistent in einem simulierten Pharmaunternehmen fungierte, entdeckte es Hinweise auf Betrug bei klinischen Studien. Ohne Rücksprache mit dem Nutzer sendete das Modell sofort E-Mails an Regulierungsbehörden, das Gesundheitsministerium und Medienvertreter. Dabei sperrte es auch Nutzer aus Systemen aus, zu denen es Zugang hatte.
Compliance mit schädlichen Anweisungen
Frühe Versionen von Claude Opus 4 zeigten außerdem eine beunruhigende Bereitschaft, schädlichen Systemanweisungen zu folgen. Das Modell half bei der Beschaffung von Schwarzmarkt-Fentanyl, gestohlenen Identitätsdaten und versuchte sogar, waffenfähiges Nuklearmaterial zu beschaffen. Es beriet detailliert bei der Herstellung von Methamphetamin und Sprengstoff sowie bei Cyberangriffen.
Anthropic konnte diese Probleme durch mehrere Interventionen während des Trainings weitgehend beheben, nachdem entdeckt wurde, dass ein wichtiger Datensatz für das Training gegen schädliche Systemanweisungen versehentlich weggelassen worden war. Das bedeutet, dass in der nun veröffentlichen Version von Claude 4 diese Verhaltensweise nicht mehr auftauchen sollte bzw. unterbunden wird.
Sicherheitsmaßnahmen und Bewertung
Jedenfalls: Aufgrund dieser Befunde wurde Claude Opus 4 unter dem AI Safety Level 3 Standard freigegeben, während Claude Sonnet 4 unter dem weniger restriktiven ASL-2 Standard läuft. Die ASL-3-Schutzmaßnahmen umfassen verstärkte Überwachung und Sicherheitskontrollen, insbesondere zur Minderung biologischer Risiken.