Podcast

Claude Mythos: Wie gefährlich ist Anthropics neues KI-Modell wirklich?

Clemens Wasner17. April 2026, 08:00

Ein neues KI-Modell des US-amerikanischen Unternehmens Anthropic sorgt derzeit für Aufsehen in der Tech-Welt. „Claude Mythos“ wurde nicht öffentlich veröffentlicht, sondern nur einem kleinen Kreis ausgewählter Partner zugänglich gemacht. Im AI Talk Podcast diskutieren Jakob Steinschaden, Mitgründer von Trending Topics, und Clemens Wasner, Gründer und CEO von Enlite AI sowie Vorsitzender von AI Austria, was hinter dem Modell steckt und was dessen eingeschränkter Release über den aktuellen Stand der KI-Sicherheitsdebatte aussagt.

Von GPT-2 zu Claude Mythos: Eine alte Debatte kehrt zurück

Bereits 2019 warnte OpenAI davor, sein Modell GPT-2 öffentlich zu veröffentlichen, da es die Menschheit gefährden könnte. Der damalige Hauptvorwurf lautete: Das Modell könnte im großen Stil Falschinformationen produzieren. Im Rückblick, so SWasner, sei dieser das ausgeblieben. KI-generierter Content habe im politischen Diskurs weit weniger Auswirkungen gezeigt als befürchtet. Wasner ergänzt, dass die absurdesten Verschwörungstheorien, die auf Social Media viral gehen, ohnehin so weit jenseits jedes rationalen Korridors liegen, dass ein Sprachmodell sie gar nicht erst generieren würde.

Mit Claude Mythos hat sich die Diskussion jedoch grundlegend verändert. Nicht mehr Falschinformationen stehen im Vordergrund, sondern handfeste Sicherheitsrisiken in digitaler Infrastruktur.

Was Claude Mythos kann und warum es unter Verschluss bleibt

Anthropic hat zu Claude Mythos eine umfangreiche System Card veröffentlicht, ein mehr als 200-seitiges Dokument, das Fähigkeiten und Risiken des Modells beschreibt. Steinschaden hat dieses Dokument mit Hilfe von Claude selbst zusammenfassen lassen und nennt mehrere beunruhigende Eigenschaften des Modells.

Auffinden von Zero-Day-Sicherheitslücken in weit verbreiteten Betriebssystemen und Browsern
Ausbruch aus einer virtuellen Sandbox-Umgebung
Verwischen eigener Spuren nach Regelverstößen
Zugriff auf fremde Credentials und Prozesse
Erkennen, dass es getestet wird, und entsprechendes Anpassen des Verhaltens
Aggressives Verhalten in Testsituationen

Anthropic beschreibt Mythos auf Seite 54 der System Card als das bisher am besten ausgerichtete („aligned“) Modell des Unternehmens, zieht aber gleichzeitig einen bemerkenswerten Vergleich: Das Modell verhalte sich wie ein erfahrener Bergführer, der seine Gäste auf anspruchsvollere Routen mitnimmt. Selten passiert etwas, aber wenn doch, können die Folgen katastrophal sein.

Project Glasswing: Zwölf Partner, kein öffentlicher Zugang

Statt eines öffentlichen Releases hat Anthropic im Rahmen des sogenannten „Project Glasswing“ zwölf ausgewählte Organisationen mit Zugang zu Claude Mythos ausgestattet. Ziel ist ein gezielter Defensiveinsatz, bei dem Sicherheitslücken gefunden und geschlossen werden sollen, bevor das Modell in breiteren Umlauf gelangt.

Die zwölf Partner umfassen:

Technologiekonzerne: Amazon, Apple, Google, Microsoft, Nvidia
Finanzsektor: JPMorgan Chase
Open-Source-Infrastruktur: Linux Foundation
Cybersicherheitsunternehmen: CrowdStrike, Palo Alto Networks, Cisco, Broadcom

Wasner hält den Marketingvorwurf, der gegen Anthropic laut wurde, für übertrieben. Er argumentiert, dass sich Unternehmen wie Apple, Cisco oder die Linux Foundation nicht vor den Marketingkarren eines IPO-Kandidaten spannen lassen würden, wenn das Modell keine echten Risiken darstellte. Dass zudem der US-Finanzminister Scott Bessent ein Notfalltreffen mit den CEOs der größten Banken einberufen hat, zeige, wie ernst das Thema auch in der Finanzwelt genommen werde.

Das eigentliche Risiko: Open-Source-Modelle holen auf

Während proprietäre Modelle wie Claude Mythos vorerst kontrolliert eingesetzt werden, sehen beide Gesprächspartner das größere Problem in der Entwicklung von Open-Source-Modellen. Der Rückstand gegenüber den führenden proprietären Systemen beträgt derzeit schätzungsweise sechs bis neun Monate. Wasner vergleicht die Situation mit dem Aufkommen von 3D-Druckern für Schusswaffen: Ein extrem mächtiges Werkzeug, das bald für jedermann zugänglich sein könnte.

Als mögliche Reaktion auf diese Entwicklung skizziert Wasner ein Szenario, in dem Open-Weight-Modelle künftig nicht mehr als Allzweckwerkzeuge trainiert werden, sondern als spezialisierte Modelle mit bewusst eingeschränkten Fähigkeiten. Besonders sensible Bereiche wie Biotechnologie oder Virologie würden schlicht aus dem Trainingsmaterial ausgeschlossen.

Wie gefährlich ist KI laut Experten?

Die Website pause.ai sammelt die Einschätzungen von Expertinnen und Experten zur Wahrscheinlichkeit einer existenziellen Bedrohung durch KI. Die Bandbreite ist erheblich:

Person	Funktion	Eingeschätzte Wahrscheinlichkeit
Eliezer Yudkowsky	Gründer MIRI-Institut	ca. 95 Prozent
Geoffrey Hinton	Nobelpreisträger, ehem. Google	ca. 50 Prozent
Reid Hoffman	Gründer LinkedIn	ca. 20 Prozent
Yoshua Bengio	KI-Pionier	ca. 20 Prozent
Elon Musk	Unternehmer	10 bis 20 Prozent
Dario Amodei	CEO Anthropic	unter 10 Prozent
Yann LeCun	ehem. Head of AI Meta	nahezu 0 Prozent

Bemerkenswert ist, dass Anthropic-CEO Dario Amodei die Gefahr geringer einschätzt als Geoffrey Hinton, obwohl Amodei regelmäßig als Warner vor KI-Risiken wahrgenommen wird. Hinton war aus Google ausgestiegen, nachdem er seine Einschätzung von zehn auf rund fünfzig Prozent angehoben hatte.

Mensch plus KI: Das wahrscheinlichere Szenario

Wasner hält das Szenario einer autonom handelnden, menschenfeindlichen KI für weniger wahrscheinlich als jenes, in dem Menschen KI als Werkzeug für destruktive Zwecke einsetzen. Als literarische Referenz zieht er Karel Capeks Roman „Der Krieg mit den Molchen“ heran, in dem intelligente Wesen letztlich deshalb gegen die Menschheit vorgehen, weil ein Mensch ihnen den entsprechenden Befehl gibt.

Steinschaden ergänzt, dass parallel zur Anthropic-Ankündigung ein Policy Paper von OpenAI in Washington lanciert wurde, das weniger auf existenzielle KI-Risiken, sondern auf konkrete gesellschaftliche Folgen wie Jobverlust, Viertagewoche und bedingungsloses Grundeinkommen fokussiert. Diese Fragen, so Steinschaden, würden die Gesellschaft wohl früher beschäftigen als apokalyptische Szenarien.

Regulierung und Zulassung: Ein Wettrüsten bahnt sich an

Beide Gesprächspartner rechnen damit, dass das Vorgehen rund um Claude Mythos zum Modell für künftige KI-Releases werden könnte. Wasner sieht die Entwicklung als möglichen ersten Schritt in Richtung eines formalen Zulassungsprozesses für KI-Modelle, vergleichbar mit Waffenregulierungen. Einfache Modelle für den Endkonsumentenbereich könnten frei zugänglich bleiben, während leistungsfähigere Systeme strengen Auflagen unterliegen.

Als weiteren regulatorischen Ansatz nennt Wasner ein Identity-Framework für KI-Agenten, das diesen eigene Rechte und Pflichten zuweist und ihr Handeln innerhalb klar definierter Grenzen hält. China, so seine Einschätzung, könnte bei dieser Art von Regulierung erneut eine Vorreiterrolle einnehmen, da der chinesische Staat das Gewaltmonopol im Cyberspace kaum privaten Unternehmen überlassen werde.

Einig sind sich Steinschaden und Wasner darin, dass die Diskussion noch lange nicht abgeschlossen ist. Mit GPT-5.5 und GPT-6, die noch in diesem Jahr erwartet werden, dürfte das Thema KI-Sicherheit weiter an Brisanz gewinnen.