Gemini 3.1 Pro von Google bringt Verbesserungen, bleibt aber teilweise hinter Anthropic
Evolution statt Revolution, das ist unterm Strich das, was Googles brandneues KI-Modell Gemini 3.1 Pro bringt. Wie die Nummerierung schon verrät, ist es ein kleineres Update des besten Google-LLM Gemini 3 Pro und wird auch demnächst für alle zahlenden Google AI Pro und Ultra-Abonnent:innen ausgerollt. Das neue Modell soll vor allem bei anspruchsvollen Aufgaben deutliche Fortschritte bieten, allerdings schafft es dieses LLM aktuell aber bei Arena.ai nicht am Top-Modell von Anthropic (Claude Opus 4.6) vorbei, bei Artificial Analysis hingegen schon.
Google rollt Gemini 3.1 Pro über mehrere Plattformen aus. Entwickler erhalten Zugang über die Gemini API in Google AI Studio, Gemini CLI, die agentenbasierte Entwicklungsplattform Google Antigravity und Android Studio. Unternehmen können das Modell über Vertex AI und Gemini Enterprise nutzen. Für Privatanwender steht Gemini 3.1 Pro in der Gemini-App und in NotebookLM zur Verfügung, wobei NotebookLM exklusiv für Pro- und Ultra-Nutzer freigeschaltet ist.
Deutliche Verbesserungen bei der Reasoning-Leistung
Im Vergleich zum Vorgängermodell Gemini 3 Pro zeigt Gemini 3.1 Pro erhebliche Fortschritte. Besonders beeindruckend ist die Leistung beim ARC-AGI-2-Benchmark, der die Fähigkeit eines Modells testet, völlig neue Logikmuster zu lösen. Hier erreichte Gemini 3.1 Pro einen verifizierten Score von 77,1 Prozent. Das ist mehr als doppelt so viel wie die Reasoning-Leistung von Gemini 3 Pro.
Das Modell ist für Aufgaben konzipiert, bei denen einfache Antworten nicht ausreichen. Es soll fortgeschrittenes Reasoning auf praktische Herausforderungen anwenden können, sei es bei der visuellen Erklärung komplexer Themen, der Synthese großer Datenmengen oder bei kreativen Projekten.
Neue Funktionen: Code-basierte Animationen
Eine besondere Neuerung ist die Fähigkeit von Gemini 3.1 Pro, website-fähige, animierte SVGs direkt aus Textbeschreibungen zu generieren. Da diese in reinem Code statt in Pixeln erstellt werden, bleiben sie in jeder Größe gestochen scharf und haben im Vergleich zu traditionellen Videos extrem kleine Dateigrößen.
Benchmark-Ergebnisse im Überblick
Google hat Gemini 3.1 Pro in zahlreichen Benchmarks getestet und die Ergebnisse mit Konkurrenzmodellen verglichen. In vielen Bereichen zeigt das Modell Spitzenleistungen:
- Humanity’s Last Exam (ohne Tools): 44,4 Prozent (beste Leistung)
- ARC-AGI-2: 77,1 Prozent (beste Leistung)
- GPQA Diamond: 94,3 Prozent (beste Leistung)
- Terminal-Bench 2.0: 68,5 Prozent (beste Leistung)
- LiveCodeBench Pro: 2887 Elo-Punkte (beste Leistung)
- SciCode: 59 Prozent (beste Leistung)
- APEX-Agents: 33,5 Prozent (beste Leistung)
Bereiche, in denen Konkurrenten vorne liegen
Trotz der beeindruckenden Gesamtleistung gibt es Benchmarks, bei denen Gemini 3.1 Pro hinter der Konkurrenz zurückbleibt. Bei Humanity’s Last Exam mit aktivierten Tools (Search und Code) erreicht Claude Opus 4.6 mit 53,1 Prozent das beste Ergebnis, während Gemini 3.1 Pro bei 51,4 Prozent liegt.
Besonders deutlich wird der Rückstand bei spezialisierten Coding-Aufgaben. Im Terminal-Bench 2.0 mit der Codex-Harness erzielt GPT-5.3-Codex mit 77,3 Prozent ein deutlich besseres Ergebnis als Gemini 3.1 Pro mit 68,5 Prozent. Auch bei SWE-Bench Pro (Public) liegt GPT-5.3-Codex mit 56,8 Prozent knapp vor Gemini 3.1 Pro mit 54,2 Prozent.
Im GDPval-AA Elo-Benchmark für Expertenaufgaben zeigt Claude Sonnet 4.6 mit 1633 Punkten die beste Leistung, während Gemini 3.1 Pro mit 1317 Punkten deutlich dahinter rangiert. Claude Opus 4.6 erreicht hier 1606 Punkte.
Technische Spezifikationen
Gemini 3.1 Pro ist ein nativ multimodales Modell, das Text, Bilder, Audio und Video verarbeiten kann. Es verfügt über ein Kontextfenster von bis zu einer Million Token und kann bis zu 64.000 Token ausgeben. Das Modell basiert auf der Architektur von Gemini 3 Pro und wurde speziell für folgende Anwendungsbereiche optimiert:
- Agentenbasierte Leistung
- Fortgeschrittenes Coding
- Long-Context- und multimodales Verständnis
- Algorithmenentwicklung
Sicherheit und verantwortungsvolle KI-Entwicklung
Google hat Gemini 3.1 Pro umfangreichen Sicherheitstests unterzogen. Im Rahmen des Frontier Safety Framework wurden Evaluierungen in fünf Risikobereichen durchgeführt: CBRN (chemische, biologische, radiologische und nukleare Informationsrisiken), Cybersicherheit, schädliche Manipulation, Machine-Learning-Forschung und Misalignment.
Die Tests ergaben, dass das Modell in allen Bereichen unterhalb der kritischen Schwellenwerte bleibt. Bei automatisierten Content-Safety-Evaluierungen zeigte Gemini 3.1 Pro im Vergleich zu Gemini 3.0 Pro leichte Verbesserungen bei Text-zu-Text-Sicherheit (plus 0,10 Prozent) und mehrsprachiger Sicherheit (plus 0,11 Prozent). Bei Bild-zu-Text-Sicherheit gab es einen leichten Rückgang von 0,33 Prozent.
Ausblick und allgemeine Verfügbarkeit
Google veröffentlicht Gemini 3.1 Pro zunächst als Preview-Version, um Feedback zu sammeln und weitere Verbesserungen vorzunehmen, insbesondere bei ambitionierten agentenbasierten Workflows. Die allgemeine Verfügbarkeit soll in Kürze folgen.
Nutzer mit Google AI Pro- und Ultra-Plänen erhalten in der Gemini-App höhere Nutzungslimits für das neue Modell. Entwickler und Unternehmen können Gemini 3.1 Pro bereits jetzt in der Preview-Version über die verschiedenen verfügbaren Plattformen testen.

