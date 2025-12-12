Das konnte OpenAI ja nicht auf sich sitzen lassen: Denn nachdem der ChatGPT-Macher bei KI-Modellen in den letzten Monaten bei Benchmarks von Google (Gemini 3 Pro), xAI (Grok 4) und Anthropic (Claude 4.5) doch deutlich abgehängt wurde, musste man kurz vor Jahresende noch einmal nachlegen. So ist das neueste KI-Modell GPT-5.2 vor allem so zu verstehen: Mit dem neuen LLM will OpenAI vor allem wieder in der Arbeitswelt punkten und nicht „bloß“ in Form von ChatGPT als Chatbot fürs Privatleben wahrgenommen werden.

So hat OpenAI GPT-5.2 vorgestellt, das nach eigenen Angaben fortschrittlichste Sprachmodell des Unternehmens. Mit über 800 Millionen wöchentlichen ChatGPT-Nutzern und mehr als 4 Millionen Entwicklern auf der Plattform soll GPT-5.2 vor allem die Leistungsfähigkeit von KI für professionelle Anwendungen deutlich erweitern. Preislich versucht man, attraktiver als Google und Anthropic bei den Top-Modellen zu sein.

Zentrale Fähigkeiten und Anwendungsbereiche

Expertenniveau bei realen Arbeitsaufgaben : GPT-5.2 Thinking ist laut OpenAI das erste Modell, das bei GDPval – einem Benchmark mit 44 realen beruflichen Aufgaben aus neun führenden Wirtschaftsbranchen – Expertenniveau erreicht. Das Modell erstellt Tabellen, verfasst Dokumente und entwickelt Präsentationen auf dem Niveau von Branchenfachleuten, allerdings mit dreifacher Geschwindigkeit und zu etwa 1 Prozent der Kosten.

: GPT-5.2 Thinking ist laut OpenAI das erste Modell, das bei GDPval – einem Benchmark mit 44 realen beruflichen Aufgaben aus neun führenden Wirtschaftsbranchen – Expertenniveau erreicht. Das Modell erstellt Tabellen, verfasst Dokumente und entwickelt Präsentationen auf dem Niveau von Branchenfachleuten, allerdings mit dreifacher Geschwindigkeit und zu etwa 1 Prozent der Kosten. Programmierung auf höchstem Niveau : In der Softwareentwicklung setzt GPT-5.2 Thinking neue Maßstäbe. Das Modell erreicht 55,6 Prozent auf SWE-bench Pro, einem strengen Test für reale Softwareentwicklung in vier Programmiersprachen. Frühnutzer berichten von deutlich stärkeren Fähigkeiten in der Frontend-Entwicklung und bei komplexen UI-Arbeiten, insbesondere mit 3D-Elementen.

: In der Softwareentwicklung setzt GPT-5.2 Thinking neue Maßstäbe. Das Modell erreicht 55,6 Prozent auf SWE-bench Pro, einem strengen Test für reale Softwareentwicklung in vier Programmiersprachen. Frühnutzer berichten von deutlich stärkeren Fähigkeiten in der Frontend-Entwicklung und bei komplexen UI-Arbeiten, insbesondere mit 3D-Elementen. Verbesserte Faktentreue und reduzierte Halluzinationen : GPT-5.2 Thinking produziert 38 Prozent weniger fehlerhafte Antworten als der Vorgänger GPT-5.1 Thinking. Dies macht das Modell zuverlässiger für Recherche, Analyse und Entscheidungsunterstützung in der täglichen Wissensarbeit.

: GPT-5.2 Thinking produziert 38 Prozent weniger fehlerhafte Antworten als der Vorgänger GPT-5.1 Thinking. Dies macht das Modell zuverlässiger für Recherche, Analyse und Entscheidungsunterstützung in der täglichen Wissensarbeit. Stärkere Vision- und Kontextverarbeitung : Das Modell halbiert die Fehlerraten bei der Interpretation von Diagrammen und Software-Oberflächen. Zudem setzt GPT-5.2 neue Standards im Langkontext-Reasoning und kann Hunderttausende von Tokens aus umfangreichen Dokumenten, Berichten und Verträgen verarbeiten.

: Das Modell halbiert die Fehlerraten bei der Interpretation von Diagrammen und Software-Oberflächen. Zudem setzt GPT-5.2 neue Standards im Langkontext-Reasoning und kann Hunderttausende von Tokens aus umfangreichen Dokumenten, Berichten und Verträgen verarbeiten. Fortschritte in Wissenschaft und Mathematik: Bei GPQA Diamond, einem wissenschaftlichen Fragebenchmark, erreicht GPT-5.2 Pro 93,2 Prozent. Bei FrontierMath, einem Test für fortgeschrittene Mathematik, löst GPT-5.2 Thinking 40,3 Prozent der Aufgaben – eine deutliche Steigerung gegenüber 31 Prozent beim Vorgängermodell.

Benchmark-Ergebnisse im Überblick

Benchmark Aufgabenbereich GPT-5.2 Thinking GPT-5.2 Pro GPT-5.1 Thinking GDPval Berufliche Aufgaben 60,8 % ausstehend 37,1 % SWE-Bench Pro Softwareentwicklung 55,6 % – 50,8 % SWE-bench Verified Softwareentwicklung 80,0 % – 76,3 % GPQA Diamond Wissenschaftsfragen 92,4 % 93,2 % 88,1 % CharXiv Reasoning Wissenschaftliche Abbildungen 88,7 % – 80,3 % HMMT Mathematikturnier 99,4 % 100,0 % 96,3 % FrontierMath (Level 1-3) Fortgeschrittene Mathematik 40,3 % ausstehend 31,0 % ARC-AGI 2 Abstraktes Denken 52,9 % ausstehend 17,6 %

Hier ist allerdings anzumerken, dass OpenAI nur die eigenen Messungen herausgibt und weder die wichtigen Benchmark-Seiten LMArena noch ArtificialAnalysis unabhängige Benchmark-Ergebnisse für GPT-5.2 zeigen. Erst die nächsten Tage werden zeigen, wo GPT-5.2 einsteigen wird.

Kampfansage beim Preis

Die GPT-5.2-Familie umfasst drei Varianten: GPT-5.2 Instant für schnelle alltägliche Aufgaben, GPT-5.2 Thinking als Hauptmodell für Professionals und GPT-5.2 Pro als intelligentestes Modell für besonders komplexe Fragestellungen. Die Modelle sind ab sofort für ChatGPT-Bezahlkunden und über die API verfügbar. In der API kostet GPT-5.2 1,75 US-Dollar pro Million Eingabe-Tokens und 14 US-Dollar pro Million Ausgabe-Tokens – teurer als GPT-5.1, aber laut OpenAI günstiger als andere Spitzenmodelle. Hier der Preisvergleich zu den direkten Konkurrenten:

Modell (Anbieter) Input-Preis (pro MTok) Output-Preis (pro MTok) Anmerkungen zur Preisgestaltung Gemini 3 Pro (Google) $2.00 $12.00 Basispreis für Kontexte $\le$ 200K Tokens. Höhere Preise für längere Kontexte. Claude Opus 4.5 (Anthropic) $5.00 $25.00 Standard-API-Preis (Base Input Tokens). Batch-Verarbeitung ist günstiger. GPT-5.2 (OpenAI) $1.75 $14.00 Preis für das Standardmodell GPT-5.2. GPT-5.2 Pro ist deutlich teurer. Grok-4 (xAI) $3.00 $15.00 Preis für das Standardmodell Grok-4. Grok-4-Fast ist wesentlich günstiger.

Kunden wie Ramp, Box, Shopify, Zoom und Hex sowie Entwicklungsunternehmen wie Cursor, Windsurf und JetBrains zeigen sich von den Fähigkeiten des neuen Modells überzeugt. OpenAI betont zudem verbesserte Sicherheitsvorkehrungen, insbesondere bei der Erkennung emotionaler Belastung und im Umgang mit sensiblen Themen der psychischen Gesundheit.