Anthropic beschuldigt DeepSeek, Moonshot AI und MiniMax, Claude zu kopieren
Der US-amerikanische KI-Entwickler Anthropic hat drei chinesische Labore beschuldigt, in industriellem Maßstab Fähigkeiten seines KI-Modells Claude gestohlen zu haben. DeepSeek, Moonshot und MiniMax sollen über 16 Millionen Abfragen durch rund 24.000 betrügerische Konten durchgeführt haben, um ihre eigenen Modelle zu verbessern. Dies geschah unter Verstoß gegen die Nutzungsbedingungen und regionale Zugriffsbeschränkungen.
Die Kampagnen nutzen eine Technik namens „Distillation“ (Destillation), bei der ein schwächeres Modell anhand der Ausgaben eines stärkeren trainiert wird. Während diese Methode an sich legitim ist und von vielen KI-Laboren verwendet wird, um beispielsweise kleinere, kostengünstigere Versionen ihrer eigenen Modelle zu erstellen, kann sie auch missbräuchlich eingesetzt werden. Konkurrenten können damit leistungsstarke Fähigkeiten in einem Bruchteil der Zeit und zu einem Bruchteil der Kosten erlangen, die eine eigenständige Entwicklung erfordern würde.
DeepSeek, Moonshot AI (mit den Kimi-Modellen) und MiniMax (börsennotiert) gehören neben Zhipu AI zu den führenden KI-Laboren Chinas. Ihre LLMs finden sich oft in den Bestenlisten von Foundation Models, vor allem im Open-Source-Bereich sind sie teilweise sogar führend.
Wie Distillation funktioniert
Bei einem Distillationsangriff werden große Mengen sorgfältig ausgearbeiteter Prompts generiert, um spezifische Fähigkeiten aus einem Modell zu extrahieren. Das Ziel ist entweder, qualitativ hochwertige Antworten für das direkte Modelltraining zu sammeln oder Zehntausende einzigartiger Aufgaben zu generieren, die für Reinforcement Learning benötigt werden.
Ein einzelner Prompt mag harmlos erscheinen, doch wenn Variationen desselben Prompts Zehntausende Male über Hunderte koordinierter Konten eintreffen und alle auf dieselbe enge Fähigkeit abzielen, wird das Muster deutlich. Anthropic beobachtete beispielsweise, wie DeepSeek Claude aufforderte, sich die interne Begründung hinter einer abgeschlossenen Antwort vorzustellen und Schritt für Schritt aufzuschreiben. Dies erzeugte effektiv Chain-of-Thought-Trainingsdaten im großen Maßstab.
Die drei Angriffskampagnen im Vergleich
| Unternehmen | Anzahl der Abfragen | Hauptziele der Extraktion | Besondere Merkmale |
|---|---|---|---|
| DeepSeek | Über 150.000 | Reasoning-Fähigkeiten, Reward-Modelle, Zensur-sichere Alternativen | Synchronisierter Traffic, Chain-of-Thought-Extraktion, Zensur-Training |
| Moonshot AI | Über 3,4 Millionen | Agentic Reasoning, Tool-Nutzung, Coding, Computer Vision | Hunderte betrügerische Konten, mehrere Zugriffswege, gezielte Reasoning-Rekonstruktion |
| MiniMax | Über 13 Millionen | Agentic Coding, Tool-Nutzung und Orchestrierung | Größte Kampagne, Pivot innerhalb von 24 Stunden nach neuer Claude-Version |
Nationale Sicherheitsrisiken
Anthropic warnt vor erheblichen Sicherheitsrisiken durch illegal destillierte Modelle. Diese Modelle verfügen nicht über die notwendigen Schutzmaßnahmen, die verhindern sollen, dass staatliche und nichtstaatliche Akteure KI beispielsweise zur Entwicklung von Biowaffen oder für bösartige Cyberaktivitäten nutzen.
Ausländische Labore, die amerikanische Modelle destillieren, können diese ungeschützten Fähigkeiten dann in militärische, nachrichtendienstliche und Überwachungssysteme einspeisen. Dies ermöglicht autoritären Regierungen, Frontier-KI für offensive Cyberoperationen, Desinformationskampagnen und Massenüberwachung einzusetzen.
Besonders problematisch ist laut Anthropic, dass diese Angriffe Exportkontrollen untergraben. Die scheinbar raschen Fortschritte chinesischer Labore werden fälschlicherweise als Beweis dafür gewertet, dass Exportkontrollen ineffektiv seien. In Wirklichkeit hängen diese Fortschritte jedoch erheblich von Fähigkeiten ab, die aus amerikanischen Modellen extrahiert wurden.
Wie die Angreifer Zugang erlangen
Da Anthropic aus Sicherheitsgründen derzeit keinen kommerziellen Zugang zu Claude in China anbietet, nutzen die Labore kommerzielle Proxy-Dienste. Diese verkaufen Zugang zu Claude und anderen Frontier-KI-Modellen im großen Maßstab weiter. Die Dienste betreiben sogenannte „Hydra-Cluster-Architekturen“: weitverzweigte Netzwerke betrügerischer Konten, die den Traffic über die API und Cloud-Plattformen von Drittanbietern verteilen.
In einem Fall verwaltete ein einzelnes Proxy-Netzwerk mehr als 20.000 betrügerische Konten gleichzeitig und mischte Destillations-Traffic mit nicht verwandten Kundenanfragen, um die Erkennung zu erschweren.
Gegenmaßnahmen von Anthropic
Anthropic hat mehrere Verteidigungsmaßnahmen implementiert, um solche Angriffe zu erschweren:
- Erkennung: Klassifikatoren und Verhaltens-Fingerprinting-Systeme zur Identifizierung von Distillationsangriffsmustern im API-Traffic
- Intelligence-Sharing: Austausch technischer Indikatoren mit anderen KI-Laboren, Cloud-Anbietern und Behörden
- Zugangskontrolle: Verstärkte Verifizierung für Bildungskonten, Sicherheitsforschungsprogramme und Startup-Organisationen
- Gegenmaßnahmen: Entwicklung von Produkt-, API- und Modell-Schutzmaßnahmen zur Reduzierung der Wirksamkeit von Modellausgaben für illegale Destillation
Das Unternehmen betont jedoch, dass kein Unternehmen dies allein lösen kann. Distillationsangriffe in diesem Ausmaß erfordern eine koordinierte Reaktion der gesamten KI-Branche, der Cloud-Anbieter und der politischen Entscheidungsträger. Anthropic veröffentlicht diese Erkenntnisse, um die Beweise allen Beteiligten zugänglich zu machen.

