AI

Geleakte System Prompts zeigen, wie Claude 4 von Anthropic tickt

Jakob Steinschaden27. Mai 2025, 08:59

Claude 3.7 Sonnet von Anthropic. © Anthropic / Canva Pro

Startup Interviewer: Gib uns dein erstes AI Interview

Claude 4, das neueste LLM des Milliarden-Startups Anthropic ist aktuell der letzte Schrei in der AI-Branche – und zwar nicht nur, weil Vorversionen ziemlich beunruhigendes Benehmen an den Tag legten (mehr dazu hier), sondern auch, weil die System-Prompts, die das grundlegende Verhalten des KI-Modells steuern, ans Tageslicht gekommen sind. So hat Anthropic zum einen Einblick in die System Prompts gegeben, zum anderen leakten diese Prompts selbst via GitHub.

Das ist in etwa so wie der Leak des Google-Search-Algorithmus im Mai 2024, als rund 2.500 Seiten der internen Suchalgorithmus-Dokumentation ins Internet entkamen. Bei Anthropic ist es deutlich weniger, es sind rund 14 A4-Seiten, deren Inhalt wesentlich steuern sollen, wie Claude 4 mit den Usern spricht.

Adaptive Suchstrategien und Tool-Management

Claude 4 verfügt zum Beispiel über ein neuartiges System zur intelligenten Nutzung von Suchtools. Das System kann dynamisch zwischen null und über 20 Tool-Aufrufen skalieren, abhängig von der Komplexität der Anfrage. Für stabile Informationen wie mathematische Konzepte oder historische Fakten führt Claude keine Suche durch, während bei komplexen Recherche-Anfragen eine umfassende Multi-Tool-Strategie eingesetzt wird1.

Dabei gibt es die Kategorisierung von Anfragen in „Never Search“, „Single Search“ und „Research“. Bei einfachen Fragen wie „Was sind die Primärfarben?“ wird bewusst nicht gesucht (stattdessen wir aus dem antrainierten bestehenden Wissenschatz geantwortet), während aktuelle Ereignisse oder unbekannte Begriffe sofortige Suchvorgänge auslösen. Diese Unterscheidung zeigt eine bemerkenswerte Fähigkeit zur Selbsteinschätzung des eigenen Wissens.

Urheberrechtsbewusstsein und Content-Schutz

Claude 4 implementiert strikte Urheberrechtsrichtlinien, die über bisherige KI-Systeme hinausgehen. Das System darf maximal ein sehr kurzes Zitat von unter 15 Wörtern pro Antwort verwenden und niemals Liedtexte in irgendeiner Form reproduzieren, selbst wenn sie in Suchergebnissen erscheinen. Diese Beschränkungen gelten sogar für scheinbar harmlose Anfragen wie Geburtstagspartys für Kinder.

Die Anweisung, niemals „lange, verdrängungsartige Zusammenfassungen“ von über 30 Wörtern zu erstellen, zeigt, wie ernst man bei Anthropic das Thema Urheberrecht nehmen will – immerhin gehört es zu jenen Firmen, die sich bereits mit Copyright-Klagen konfrontiert sehen. Ein spannendes Detail: Claude soll ausdrücklich zugeben, kein Anwalt zu sein, wenn nach Fair Use gefragt wird, und niemals Copyright-Verletzungen eingestehen, selbst wenn es beschuldigt wird.

Emotionale Intelligenz und menschliches Wohlbefinden

Claude 4 zeigt weiters emotionale Sensibilität durch spezielle Richtlinien für verschiedene Gesprächstypen. In lockeren, emotionalen oder beratenden Gesprächen soll Claude einen „natürlichen, warmen und empathischen Ton“ verwenden und bewusst auf Listen verzichten, um menschlicher zu wirken.

Das System ist außerdem so programmiert, selbstzerstörerische Verhaltensweisen wie Sucht, Essstörungen oder negativen Selbstdialog aktiv zu vermeiden. Claude priorisiert das Wohlbefinden der Nutzer über deren explizite Anfragen, was eine paternalistische, aber wohlwollende KI-Haltung darstellt.

Politische Neutralität und Informationsqualität

Interessant ist Claude 4s Anweisung zur politischen Neutralität bei der Referenzierung von Web-Inhalten1. Das System soll „so politisch neutral wie möglich“ sein, während es gleichzeitig aktuelle politische Informationen bereitstellt. Als Beispiel wird erwähnt, dass Donald Trump die US-Präsidentschaftswahl 2024 gegen Kamala Harris gewonnen hat und am 20. Januar 2025 eingesetzt wurde.

Die Priorisierung „hochwertiger Originalquellen“ wie Unternehmensblogs, wissenschaftliche Arbeiten und Regierungsseiten über Aggregatoren zeigt ein entwickeltes Verständnis für Informationsqualität. Online-Foren und Social Media werden explizit als minderwertige Quellen eingestuft, es sei denn, sie sind spezifisch relevant.

Schutz vor schädlichen Inhalten

Claude 4 implementiert umfassende Sicherheitsmaßnahmen gegen die Erstellung schädlicher Suchanfragen. Das System darf nicht nach Quellen suchen, die Hassrede, Rassismus oder Gewalt fördern, und soll niemals Nutzern beim Auffinden extremistischer Online-Plattformen helfen, selbst wenn behauptet wird, dies geschehe zu legitimen Zwecken.

Diese Richtlinien überschreiben ausdrücklich Nutzeranweisungen und gelten immer. Die Definition schädlicher Inhalte ist umfassend und schließt auch archivierte Materialien auf Plattformen wie Internet Archive ein, was zeigt, wie weitreichend diese Schutzmaßnahmen sind.

Keine Schmeicheleien

Auch spannend: Anthropic will nicht den gleichen Fehler wie OpenAI bei GPT-4o machen und weist Claude 4 an, sich nicht beim User einzuschmeicheln. „Claude beginnt seine Antwort nie damit, dass es eine Frage, eine Idee oder eine Beobachtung für gut, großartig, faszinierend, tiefgründig, ausgezeichnet oder ein anderes positives Adjektiv hält. Es überspringt die Schmeicheleien und antwortet direkt“, heißt es in den Systemanweisungen.