Benchmarks

Grok-4 schlägt in ersten Tests Spitzenmodelle von Google, OpenAI und Anthropic

co-written by Newsrooms.AI11. Juli 2025, 08:21

Startup Interviewer: Gib uns dein erstes AI Interview

Wenn Elon Musk sagt, dass die neueste Schöpfung seines Startups xAI die „schlaueste KI der Welt“ ist, dann hat er damit möglicherweise sogar recht und liefert nicht bloß markige Sprüche ab. Denn bereits am Tag nach der Veröffentlichung des neuesten KI-Modells Grok-4 zeigen erste Testergebnisse im Vergleich zu den Spitzenmodellen von OpenAI, Google und Anthropic, dass sich das LLM gegen diese behaupten kann.

Die neuesten Testergebnisse von artificialanalysis.ai zeigen ein bemerkenswertes Bild: Grok-4 von xAI hat sich in den Intelligence-Benchmarks an die absolute Spitze gesetzt und liegt dort am ersten Platz vor Gemini 2.5 Pro von Google und o4-mini (high) von OpenAI. Dieses Ergebnis markiert einen wichtigen Wendepunkt im KI-Wettbewerb und unterstreicht die rasante Entwicklung von Musks KI-Unternehmen, das ja erst 2023 gegründet wurde und trotzdem zur Weltklasse zählt.

Was noch ausständig ist, ist das Ranking von Grok-4 in der wichtigen LMarena, wo regelmäßig LLMs durch die Nutzer:innen bewertet werden – dort ist aktuell noch immer der Vorgänger Grok-3 zu finden, allerdings etwas weiter hinten in der Rangfolge hinter den Modellen von Google, OpenAI, DeepSeek und Anthropic.

Der Chatbot Grok von xAI, wo Grok-4 verbaut ist, ist aber auch kontrovers und sorgte in den vergangenen Wochen und Monaten immer wieder für Kritik (Stichwort „MechaHitler“). Zuvor kam es bereits zu mehreren Skandalen rund um xAI, unter anderem wegen umweltbelastenden Gasturbinen für den Betrieb des Colossus-Rechenzentrums und politisch unkorrekter und antisemitischer Äußerungen des Chatbots.

Auch beim „Humanit’y Last Exam“-Test schneidet Grok dem Unternehmen zufolge besser ab als die Konkurrenz. Dabei handelt es sich um einen sehr anspruchsvollen KI-Benchmark mit 3.000 Fragen aus über 100 Fachgebieten, die von fast 1.000 Expertinnen und Experten weltweit erstellt wurden. Ziel ist es, die Grenzen aktueller KI-Modelle zu testen, da selbst die fortschrittlichsten Systeme bislang nur sehr geringe Erfolgsquoten erreichen.

Einordnung in andere Kategorien

Während Grok-4 bei der Intelligenz glänzt, zeigt die Analyse auch die Stärken und Schwächen verschiedener Modelle in anderen Bereichen:

Geschwindigkeit: Hier dominieren Googles Gemini-Modelle, insbesondere die Flash-Lite-Varianten, die mit bis zu 691 Token pro Sekunde beeindruckende Geschwindigkeiten erreichen.

Latenz: Die niedrigsten Latenzzeiten bieten spezialisierte Modelle wie LFM 40B (0,15 Sekunden) und Command-R (0,16 Sekunden).

Kosteneffizienz: Bei den Preisen führen die Gemma-Modelle mit nur 0,03 Dollar pro Million Token.

Kontextfenster: Llama 4 Scout setzt mit einem 10-Millionen-Token-Kontextfenster neue Maßstäbe.

Bedeutung für den KI-Markt

Grok-4s Spitzenposition in der Intelligenz-Kategorie ist ein starkes Signal für die Wettbewerbsfähigkeit von xAI. Das Unternehmen, das erst 2023 gegründet wurde, hat damit bewiesen, dass es technologisch mit den etablierten Playern mithalten kann. Anzumerken ist, dass das auch das chinesische AI-Startup DeepSeek geschafft hat, mit vergleichsweise weniger Ressourcen.

Besonders interessant ist, dass Grok-4 diese Leistung erreicht, obwohl andere Modelle in spezifischen Bereichen wie Geschwindigkeit oder Kosteneffizienz führen. Dies deutet darauf hin, dass xAI bewusst auf maximale Intelligenz und Leistungsfähigkeit gesetzt hat, möglicherweise auf Kosten anderer Faktoren.