Benchmarks

GPT-5 schlägt Top-Modelle von Google, Anthropic, xAI und Alibaba – aber nur knapp

Jakob Steinschaden07. August 2025, 22:24

Startup Interviewer: Gib uns dein erstes AI Interview

Der Launch von GPT-5 von OpenAI am Donnerstag Abend ist voll eingeschlagen: So platziert OpenAI sein neuestes AI-Modell in Gestalt von ChatGPT unter anderem als Gesundheits- und Coding-Assistent am Markt, der natürlich wieder einmal schlauer ist als seine Vorgänger. Auch bei Benchmarks wie AIME, SWE-bench Verified oder HealthBench Hard soll GPT-5, das die älteren LLMs der GPT-4- sowie der o1/o3/o4-Reihe ersetzen wird, glänzen.

So weit, so gut. Wie aber steht GPT-5 im Vergleich zu den KI-Modellen der Konkurrenz da? Wie berichtet, haben so manche LLMs von Google, Anthropic oder xAI die bisherigen Top-Modelle von OpenAI unterschiedlichen Disziplinen (z.B. Coding) bereits überholen können – insofern war es für OpenAI doch dringend notwendig, wieder an die Spitze zu kommen.

Kurz nach dem Launch kann man festhalten: Das ist gelungen. Sowohl bei Artificial Analysis Intelligence Index als auch in unterschiedlichen Rankings der viel beachteten LMArena liegt GPT-5 vor seinen Mitbewerbern – oder zumindest gleichauf an der Spitze:

Hier die Ergebnisse der LMArena, wo User die Ergebnisse von KI-Modellen im Blindtest bewerten:

Mathematik (LMArena)

Instruction Following (LMArena)

Creative Writing (LMArena)

Wie man sehen kann, konnte sich GPT-5 in fast allen wichtigen Kategorien an die Spitze setzen oder zumindest mit der Konkurrenz gleichziehen. Was man aber auch sieht: Der Abstand von GPT-5 zum Mitbewerb ist teilweise sehr gering, für Laien werden sich die Ergebnisse etwa Texten, Coding, Mathematik und Co kaum von jenen der Rivalen unterscheiden. Insofern ist es OpenAI also zwar gelungen, wieder leicht in Vorsprung zu gehen, doch uneinholbare Spitzenklasse ist man lange nicht mehr.

Dementsprechend wird es vor allem spannend, was Google abliefern wird, das ja derzeit noch bei einer Zwischenversion, nämlich Gemini 2.5 Pro steht. Anthropic (Claude 4), xAI (Grok 4) oder Alibaba (Qwen 3) haben kürzlich erst abgeliefert und werden viele Monate brauchen, um wirklich neue Modelle zu launchen. Spannend wird mittelfristig, wie Meta in dem Spiel mitmischen wird – nach der schmählichen Niederlage von Llama 4 (mehr dazu hier) hat Mark Zuckerberg sehr viel Geld in die Hand genommen, um Köpfe von OpenAI, Apple und Co abzuwerben. 2026 wird man wohl sehen, was diese zustande bringen.