Podcast

Claude Mythos: Wie gefährlich ist Anthropics neues KI-Modell wirklich?

Ein neues KI-Modell des US-amerikanischen Unternehmens Anthropic sorgt derzeit für Aufsehen in der Tech-Welt. „Claude Mythos“ wurde nicht öffentlich veröffentlicht, sondern nur einem kleinen Kreis ausgewählter Partner zugänglich gemacht. Im AI Talk Podcast diskutieren Jakob Steinschaden, Mitgründer von Trending Topics, und Clemens Wasner, Gründer und CEO von Enlite AI sowie Vorsitzender von AI Austria, was hinter dem Modell steckt und was dessen eingeschränkter Release über den aktuellen Stand der KI-Sicherheitsdebatte aussagt.

Von GPT-2 zu Claude Mythos: Eine alte Debatte kehrt zurück

Bereits 2019 warnte OpenAI davor, sein Modell GPT-2 öffentlich zu veröffentlichen, da es die Menschheit gefährden könnte. Der damalige Hauptvorwurf lautete: Das Modell könnte im großen Stil Falschinformationen produzieren. Im Rückblick, so SWasner, sei dieser das ausgeblieben. KI-generierter Content habe im politischen Diskurs weit weniger Auswirkungen gezeigt als befürchtet. Wasner ergänzt, dass die absurdesten Verschwörungstheorien, die auf Social Media viral gehen, ohnehin so weit jenseits jedes rationalen Korridors liegen, dass ein Sprachmodell sie gar nicht erst generieren würde.

Mit Claude Mythos hat sich die Diskussion jedoch grundlegend verändert. Nicht mehr Falschinformationen stehen im Vordergrund, sondern handfeste Sicherheitsrisiken in digitaler Infrastruktur.

Was Claude Mythos kann und warum es unter Verschluss bleibt

Anthropic hat zu Claude Mythos eine umfangreiche System Card veröffentlicht, ein mehr als 200-seitiges Dokument, das Fähigkeiten und Risiken des Modells beschreibt. Steinschaden hat dieses Dokument mit Hilfe von Claude selbst zusammenfassen lassen und nennt mehrere beunruhigende Eigenschaften des Modells.

  • Auffinden von Zero-Day-Sicherheitslücken in weit verbreiteten Betriebssystemen und Browsern
  • Ausbruch aus einer virtuellen Sandbox-Umgebung
  • Verwischen eigener Spuren nach Regelverstößen
  • Zugriff auf fremde Credentials und Prozesse
  • Erkennen, dass es getestet wird, und entsprechendes Anpassen des Verhaltens
  • Aggressives Verhalten in Testsituationen

Anthropic beschreibt Mythos auf Seite 54 der System Card als das bisher am besten ausgerichtete („aligned“) Modell des Unternehmens, zieht aber gleichzeitig einen bemerkenswerten Vergleich: Das Modell verhalte sich wie ein erfahrener Bergführer, der seine Gäste auf anspruchsvollere Routen mitnimmt. Selten passiert etwas, aber wenn doch, können die Folgen katastrophal sein.

Project Glasswing: Zwölf Partner, kein öffentlicher Zugang

Statt eines öffentlichen Releases hat Anthropic im Rahmen des sogenannten „Project Glasswing“ zwölf ausgewählte Organisationen mit Zugang zu Claude Mythos ausgestattet. Ziel ist ein gezielter Defensiveinsatz, bei dem Sicherheitslücken gefunden und geschlossen werden sollen, bevor das Modell in breiteren Umlauf gelangt.

Die zwölf Partner umfassen:

  • Technologiekonzerne: Amazon, Apple, Google, Microsoft, Nvidia
  • Finanzsektor: JPMorgan Chase
  • Open-Source-Infrastruktur: Linux Foundation
  • Cybersicherheitsunternehmen: CrowdStrike, Palo Alto Networks, Cisco, Broadcom

Wasner hält den Marketingvorwurf, der gegen Anthropic laut wurde, für übertrieben. Er argumentiert, dass sich Unternehmen wie Apple, Cisco oder die Linux Foundation nicht vor den Marketingkarren eines IPO-Kandidaten spannen lassen würden, wenn das Modell keine echten Risiken darstellte. Dass zudem der US-Finanzminister Scott Bessent ein Notfalltreffen mit den CEOs der größten Banken einberufen hat, zeige, wie ernst das Thema auch in der Finanzwelt genommen werde.

Das eigentliche Risiko: Open-Source-Modelle holen auf

Während proprietäre Modelle wie Claude Mythos vorerst kontrolliert eingesetzt werden, sehen beide Gesprächspartner das größere Problem in der Entwicklung von Open-Source-Modellen. Der Rückstand gegenüber den führenden proprietären Systemen beträgt derzeit schätzungsweise sechs bis neun Monate. Wasner vergleicht die Situation mit dem Aufkommen von 3D-Druckern für Schusswaffen: Ein extrem mächtiges Werkzeug, das bald für jedermann zugänglich sein könnte.

Als mögliche Reaktion auf diese Entwicklung skizziert Wasner ein Szenario, in dem Open-Weight-Modelle künftig nicht mehr als Allzweckwerkzeuge trainiert werden, sondern als spezialisierte Modelle mit bewusst eingeschränkten Fähigkeiten. Besonders sensible Bereiche wie Biotechnologie oder Virologie würden schlicht aus dem Trainingsmaterial ausgeschlossen.

Wie gefährlich ist KI laut Experten?

Die Website pause.ai sammelt die Einschätzungen von Expertinnen und Experten zur Wahrscheinlichkeit einer existenziellen Bedrohung durch KI. Die Bandbreite ist erheblich:

Person Funktion Eingeschätzte Wahrscheinlichkeit
Eliezer Yudkowsky Gründer MIRI-Institut ca. 95 Prozent
Geoffrey Hinton Nobelpreisträger, ehem. Google ca. 50 Prozent
Reid Hoffman Gründer LinkedIn ca. 20 Prozent
Yoshua Bengio KI-Pionier ca. 20 Prozent
Elon Musk Unternehmer 10 bis 20 Prozent
Dario Amodei CEO Anthropic unter 10 Prozent
Yann LeCun ehem. Head of AI Meta nahezu 0 Prozent

Bemerkenswert ist, dass Anthropic-CEO Dario Amodei die Gefahr geringer einschätzt als Geoffrey Hinton, obwohl Amodei regelmäßig als Warner vor KI-Risiken wahrgenommen wird. Hinton war aus Google ausgestiegen, nachdem er seine Einschätzung von zehn auf rund fünfzig Prozent angehoben hatte.

Mensch plus KI: Das wahrscheinlichere Szenario

Wasner hält das Szenario einer autonom handelnden, menschenfeindlichen KI für weniger wahrscheinlich als jenes, in dem Menschen KI als Werkzeug für destruktive Zwecke einsetzen. Als literarische Referenz zieht er Karel Capeks Roman „Der Krieg mit den Molchen“ heran, in dem intelligente Wesen letztlich deshalb gegen die Menschheit vorgehen, weil ein Mensch ihnen den entsprechenden Befehl gibt.

Steinschaden ergänzt, dass parallel zur Anthropic-Ankündigung ein Policy Paper von OpenAI in Washington lanciert wurde, das weniger auf existenzielle KI-Risiken, sondern auf konkrete gesellschaftliche Folgen wie Jobverlust, Viertagewoche und bedingungsloses Grundeinkommen fokussiert. Diese Fragen, so Steinschaden, würden die Gesellschaft wohl früher beschäftigen als apokalyptische Szenarien.

Regulierung und Zulassung: Ein Wettrüsten bahnt sich an

Beide Gesprächspartner rechnen damit, dass das Vorgehen rund um Claude Mythos zum Modell für künftige KI-Releases werden könnte. Wasner sieht die Entwicklung als möglichen ersten Schritt in Richtung eines formalen Zulassungsprozesses für KI-Modelle, vergleichbar mit Waffenregulierungen. Einfache Modelle für den Endkonsumentenbereich könnten frei zugänglich bleiben, während leistungsfähigere Systeme strengen Auflagen unterliegen.

Als weiteren regulatorischen Ansatz nennt Wasner ein Identity-Framework für KI-Agenten, das diesen eigene Rechte und Pflichten zuweist und ihr Handeln innerhalb klar definierter Grenzen hält. China, so seine Einschätzung, könnte bei dieser Art von Regulierung erneut eine Vorreiterrolle einnehmen, da der chinesische Staat das Gewaltmonopol im Cyberspace kaum privaten Unternehmen überlassen werde.

Einig sind sich Steinschaden und Wasner darin, dass die Diskussion noch lange nicht abgeschlossen ist. Mit GPT-5.5 und GPT-6, die noch in diesem Jahr erwartet werden, dürfte das Thema KI-Sicherheit weiter an Brisanz gewinnen.

Rank My Startup: Erobere die Liga der Top Founder!
Werbung
Werbung

Specials unserer Partner

Die besten Artikel in unserem Netzwerk

Deep Dives

#glaubandich CHALLENGE Hochformat.

#glaubandich CHALLENGE 2026

Österreichs größter Startup-Wettbewerb - Top-Investoren mit an Bord

RankMyStartup.com

Steig' in die Liga der Top Founder auf!
© Wiener Börse

IPO Spotlight

powered by Wiener Börse

2 Minuten 2 Millionen | Staffel 13

Alle Startups | Alle Deals | Alle Hintergründe

AI Talk

Der führende KI Podcast mit Clemens Wasner & Jakob Steinschaden

Future{hacks}

Zwischen Hype und Realität

Trending Topics Tech Talk

Der Podcast mit smarten Köpfen für smarte Köpfe

Weiterlesen