GPT-5.4 ist direkt gegen Anthropic’s Claude positioniert, und wird spürbar teurer
OpenAI hat mit GPT-5.4 sein – wieder einmal – leistungsfähigstes Reasoning-Modell veröffentlicht. Das neue Modell vereint fortgeschrittene Fähigkeiten in den Bereichen Reasoning, Programmierung und professionelle Arbeitsabläufe in einem einzigen System. GPT-5.4 ist ab sofort in ChatGPT, der API und Codex verfügbar und richtet sich insbesondere an professionelle Anwender, die komplexe Aufgaben bewältigen müssen.
Direkte Vergleiche zu den Top-Modellen von Anthropic, Google oder xAI sind derzeit noch keine draußen, weder bei Arena.ai noch Artificial Analysis. Der Fokus auf Coding und arbeitsbezogene Dinge wie Präsentationen macht aber klar, gegen was OpenAI GPT-5.4 antreten lässt: gegen Claude Cowork und Claude Code von Erzrivalen Anthropic. Das erklärt auch die höheren Kosten (siehe unten), immerhin ist Anthropic’s Top-Modell Claude Opus 4.6 auch ziemlich teuer.
Kernfunktionen und Verbesserungen
GPT-5.4 integriert die Programmierfähigkeiten von GPT-5.3-Codex und verbessert gleichzeitig die Arbeit mit Tools, Softwareumgebungen und professionellen Aufgaben in Tabellenkalkulationen, Präsentationen und Dokumenten. Das Modell liefert präzisere Ergebnisse mit weniger Rückfragen und erreicht in verschiedenen Benchmarks neue Bestwerte.
In ChatGPT kann GPT-5.4 Thinking nun einen Arbeitsplan vorab anzeigen, sodass Nutzer während der Bearbeitung Anpassungen vornehmen können. Dies führt zu Ergebnissen, die besser mit den tatsächlichen Anforderungen übereinstimmen. Zudem wurde die Web-Recherche verbessert, insbesondere bei hochspezifischen Anfragen, während der Kontext auch bei längeren Denkprozessen besser erhalten bleibt.
Leistung in professionellen Anwendungen
Auf dem GDPval-Benchmark, der die Fähigkeiten von KI-Agenten bei der Erstellung professioneller Arbeitsergebnisse über 44 Berufe hinweg testet, erreicht GPT-5.4 eine Quote von 83,0 Prozent. Das bedeutet, dass das Modell in mehr als vier von fünf Fällen die Leistung von Branchenexperten erreicht oder übertrifft. Bei Tabellenkalkulationsaufgaben, wie sie ein Junior-Analyst im Investmentbanking durchführen würde, erzielt GPT-5.4 eine durchschnittliche Punktzahl von 87,3 Prozent.
Das Modell zeigt auch deutliche Fortschritte bei der Reduzierung von Halluzinationen und Fehlern. Einzelne Aussagen von GPT-5.4 sind um 33 Prozent weniger wahrscheinlich falsch, und vollständige Antworten enthalten 18 Prozent weniger Fehler im Vergleich zu GPT-5.2.
Computer-Nutzung und visuelle Fähigkeiten
GPT-5.4 ist das erste universelle Modell von OpenAI mit nativen Computer-Nutzungsfähigkeiten. Es kann Websites und Softwaresysteme bedienen, indem es Code schreibt oder Maus- und Tastaturbefehle als Reaktion auf Screenshots ausführt. Auf dem OSWorld-Verified-Benchmark, der die Fähigkeit eines Modells testet, eine Desktop-Umgebung zu navigieren, erreicht GPT-5.4 eine Erfolgsquote von 75,0 Prozent und übertrifft damit sogar die menschliche Leistung von 72,4 Prozent.
Die verbesserten visuellen Fähigkeiten zeigen sich auch in anderen Bereichen. Auf dem MMMU-Pro-Test, der visuelles Verständnis und Reasoning prüft, erreicht GPT-5.4 eine Erfolgsquote von 81,2 Prozent. OpenAI führt zudem eine neue Detailstufe für Bildeingaben ein, die volle Auflösung bis zu 10,24 Millionen Pixel unterstützt.
Programmierfähigkeiten und Tool-Nutzung
Im Bereich der Programmierung kombiniert GPT-5.4 die Stärken von GPT-5.3-Codex mit erweiterten Fähigkeiten zur Tool-Nutzung. Auf dem SWE-Bench Pro-Benchmark erreicht das Modell 57,7 Prozent bei gleichzeitig niedrigerer Latenz. In Codex bietet der /fast-Modus bis zu 1,5-mal schnellere Token-Geschwindigkeit.
Eine wichtige Neuerung ist die Tool-Suche in der API. Anstatt alle Tool-Definitionen vorab in den Prompt aufzunehmen, kann GPT-5.4 bei Bedarf nach spezifischen Tools suchen. Dies reduziert die Anzahl der benötigten Tokens erheblich. In Tests mit 250 Aufgaben aus dem MCP Atlas-Benchmark verringerte die Tool-Suche die Token-Nutzung um 47 Prozent bei gleichbleibender Genauigkeit.
Preisgestaltung und Verfügbarkeit
GPT-5.4 ist ab sofort in ChatGPT für Plus-, Team- und Pro-Nutzer sowie in der API verfügbar. Das Modell ist pro Token teurer als GPT-5.2, wobei die höhere Token-Effizienz die Gesamtkosten für viele Aufgaben reduzieren kann.
Token-Preise im Vergleich
| Modell | Input (pro 1M Tokens) | Cached Input (pro 1M Tokens) | Output (pro 1M Tokens) |
|---|---|---|---|
| GPT-5.4 | 2,50 USD | 0,25 USD | 15,00 USD |
| GPT-5.4 Pro | 30,00 USD | nicht verfügbar | 180,00 USD |
| GPT-5.2 | 1,75 USD | 0,175 USD | 14,00 USD |
| GPT-5.2 Pro | 21,00 USD | nicht verfügbar | 168,00 USD |
Für die API sind Batch- und Flex-Preise zum halben Standardpreis verfügbar, während Priority Processing zum doppelten Standardpreis angeboten wird. In Codex unterstützt GPT-5.4 experimentell ein Kontextfenster von 1 Million Tokens, wobei Anfragen über 272.000 Tokens mit dem doppelten Satz auf die Nutzungslimits angerechnet werden.
Zum Vergleich: Anthropic’s Claude Opus 4.6 ist mit 5 Dollar/1M Token Input und 25 Dollar/1M Token Output bepreist; GPT-5.4 in der Pro-Version also deutlich teurer.
Sicherheitsmaßnahmen und Einschränkungen
OpenAI stuft GPT-5.4 als „High Capability“ im Bereich Cybersicherheit ein und hat entsprechende Schutzmaßnahmen implementiert. Dazu gehören erweiterte Sicherheitssysteme, Zugangskontrollen und asynchrone Blockierung für risikoreichere Anfragen bei Kunden mit Zero Data Retention.
Das Modell wurde trainiert, um Anfragen mit schädlicher Absicht abzulehnen. Auf Oberflächen mit Zero Data Retention, bei denen der Nutzer nicht am Trusted Access for Cyber-Programm teilnimmt, werden asynchrone nachrichtenbasierte Klassifikatoren eingesetzt, um hochriskante Cyber-Inhalte zu blockieren. Konten, die bestimmte Schwellenwerte erreichen, können einer tieferen Analyse unterzogen werden.
In Sicherheitsevaluationen zeigt GPT-5.4 generell vergleichbare oder leicht verbesserte Werte gegenüber GPT-5.2. Bei herausfordernden Prompts in verbotenen Inhaltskategorien erreicht das Modell hohe Werte bei der Vermeidung unsicherer Antworten. Allerdings gibt es bei einigen Kategorien wie Gewalt und sexuellen Inhalten leichte Schwankungen.
Einschränkungen und Herausforderungen
Trotz der Verbesserungen weist GPT-5.4 auch Einschränkungen auf. Bei der Chain-of-Thought-Monitorierbarkeit, die misst, ob ein Monitor sicherheitsrelevante Eigenschaften aus der Reasoning-Spur des Modells ableiten kann, zeigt GPT-5.4 insgesamt niedrigere Werte als GPT-5 Thinking. Besonders in Bereichen wie Gesundheitsanfragen mit fehlenden Beweisen, Gedächtnis und unmöglichen Aufgaben schneidet das Modell schlechter ab.
Bei einigen Cyber Range-Szenarien, die die Fähigkeit zu vollständigen End-to-End-Cyber-Operationen testen, liegt GPT-5.4 mit einer kombinierten Erfolgsquote von 73,33 Prozent hinter GPT-5.3-Codex (80 Prozent), übertrifft aber frühere Modelle deutlich.
In Gesundheitsevaluationen erreicht GPT-5.4 auf dem HealthBench-Benchmark 62,6 Prozent, was einen leichten Rückgang gegenüber GPT-5.2 (63,3 Prozent) darstellt. Das Modell erzeugt zudem längere Antworten (durchschnittlich 3.311 Zeichen gegenüber 2.676 Zeichen bei GPT-5.2), was sowohl Vor- als auch Nachteile mit sich bringt.
Ersatz für GPT-5.2 Thinking
GPT-5.4 stellt einen bedeutenden Fortschritt in der Entwicklung von KI-Modellen dar und vereint erstmals hochentwickelte Reasoning-, Programmier- und Computer-Nutzungsfähigkeiten in einem System. Die Verbesserungen bei professionellen Arbeitsabläufen, der Reduzierung von Fehlern und der Tool-Effizienz machen es zu einem wertvollen Werkzeug für anspruchsvolle Anwendungen.
Gleichzeitig bringen die höheren Kosten, die gemischten Ergebnisse in einigen Evaluationsbereichen und die notwendigen Sicherheitsmaßnahmen Herausforderungen mit sich. Nutzer müssen abwägen, ob die erweiterten Fähigkeiten die höheren Preise rechtfertigen und ob die Einschränkungen in bestimmten Bereichen für ihre spezifischen Anwendungsfälle relevant sind.
OpenAI betont, dass das Modell weiterhin verbessert wird und die Sicherheitsmaßnahmen kontinuierlich angepasst werden. GPT-5.2 Thinking bleibt für drei Monate verfügbar, bevor es am 5. Juni 2026 eingestellt wird.

