GPT-5: Unsanfte Landung zwischen Hype und Ernüchterung

Es wurde mit dem Manhattan-Projekt verglichen und sollte der nächste große Schritt auf dem Weg zu AGI sein: OpenAIs neuestes Flaggschiff-Modell GPT-5 sollte den nächsten großen Sprung in der KI-Entwicklung markieren. Nach monatelanger Erwartung und vollmundigen Ankündigungen zeigt sich jedoch ein zwiespältiges Bild: Während das Modell durchaus Verbesserungen aufweist, sorgen technische Probleme, massiv gestiegener Energieverbrauch und eine geteilte Nutzerreaktion für Ernüchterung in der KI-Community.
Die Ernüchterung geht sogar so weit, dass OpenAI-CEO Sam Altman nun versprach, dass das ältere AI-Modell GPT-4o zurückkommt. Eigentlich hätte es wie alle anderen durch GPT ersetzt werden sollen. „GPT-5 ist das intelligenteste Modell, das wir je gemacht haben, aber das Wichtigste, worauf wir gedrängt haben, ist der reale Nutzen und die Zugänglichkeit/Erschwinglichkeit für die Masse“, so Altman. „Wir können noch viel, viel intelligentere Modelle herausbringen, und das werden wir auch, aber das ist etwas, von dem mehr als eine Milliarde Menschen profitieren werden.“
Performance: Evolution statt Revolution
Die Performance von GPT-5 präsentiert sich als typische evolutionäre Weiterentwicklung, nicht als der von OpenAI versprochene Quantensprung. Das Unternehmen bewirbt das Modell als „signifikanten Sprung in der Intelligenz“ mit „PhD-Level-Expertise in jedem Bereich“, doch die Realität zeigt ein differenzierteres Bild.
OpenAI führte ein automatisches Routing-System ein, das je nach Anfrage zwischen verschiedenen Modell-Varianten wechselt – von schnellen Antworten bis hin zu komplexeren „Reasoning“-Modi. Während diese Funktionalität theoretisch die Nutzererfahrung verbessern soll, berichteten viele Anwender zum Start von Fehlfunktionen, die GPT-5 zeitweise „dümmer“ als seinen Vorgänger wirken ließen.
Gleichzeitig sieht man aber auch, dass GPT-5 gefährlicher geworden ist. In der System Card, also quasi der Beipackzettel von KI-Modellen, in dem man liest, was in der PR-Meldung nicht steht, sieht man dass GPT-5 als Hochrisiko in Sachen Bio- und Chemiewaffen eingestuft wurde:
GPT-5 als Hochrisiko in Sachen Bio- und Chemiewaffen eingestuft
Benchmarks: Gemischte Ergebnisse im Vergleich
In standardisierten Benchmarks zeigt GPT-5 eine uneinheitliche Leistung. Während das Modell in einigen Bereichen wie Kodierung und mathematischen Aufgaben Verbesserungen aufweist, schneidet es in anderen Tests schlechter ab als erwartet. Besonders auffällig: Im ARC-AGI-2-Benchmark, der abstraktes Denken misst, liegt GPT-5 hinter Konkurrenzmodellen wie Grok 4 Heavy zurück.
Experten kritisieren zudem, dass OpenAI bei der Präsentation fehlerhafte Diagramme verwendete, bei denen Balkengrößen nicht zu den angegebenen Werten passten – ein peinlicher Patzer für ein Unternehmen, das eigentlich gestiegene Präzision bei GPT-5 verspricht. Hier das komplett sinnlose Diagramm, das GPT-5 mit o3 und 4o vergleicht:
Im Vergleich zu aktuellen Konkurrenzmodellen von Anthropic (Claude), Google (Gemini) oder xAI (Grok) bietet GPT-5 keinen eindeutigen technischen Vorsprung mehr. Die Zeit der klaren OpenAI-Dominanz ist schon länger vorbei und kommt auch nicht mehr wieder zurück. Wie berichtet, liegt GPT-5 zwar in vielen Benchmarks vor den Rivalen, aber eben nur sehr knapp – es braucht nicht viel, um GPT-5 wieder zu überholen:
GPT-5 schlägt Top-Modelle von Google, Anthropic, xAI und Alibaba – aber nur knapp
Vorgängervergleich: Bescheidene Fortschritte
Der Sprung von GPT-4o zu GPT-5 fällt deutlich geringer aus als frühere Generationsübergänge. Während GPT-3 zu GPT-4 einen erheblichen Leistungsschub bedeutete, empfinden viele Nutzer GPT-5 als inkrementelle Verbesserung mit neuen Schwächen. Nimmt man die Wertungen der LMArena, in der User unterschiedliche KI-Modelle im Blindtest bewerten, dann zeigen sich folgende Sprünge:
- GPT-5: 1.481 Punkte
- GPT-4: 1.286 Punkte
- GPT-3: 1.201 Punkte
Das zeigt: Eigentlich müsste GPT-5 sich viel deutlicher abheben – aber dadurch, dass es mit GPT-4.1, GPT-4o, GPT-4.5, o1, 03 oder 04 so viele verschiedene Abwandlungen und Abspaltungen gab, wurde GPT-4 in den vergangenen 2 Jahren stetig verbessert und hat eine stattliche Flughöhe erreicht. GPT-5 liegt zum Beispiel bei LMArena nur 31 Punkte vor o3 (1.450). Kein Wunder, das GPT-5 kein Feuerwerk abliefert.
Grundlegende Probleme früherer Modelle bestehen fort: GPT-5 kämpft weiterhin mit Schachregeln, visueller Objekterkennung und logischen Fehlern. Ein Beispiel aus der Community zeigt das Modell ratlos bei der Beschreibung eines simplen Fahrrads mit zusätzlichen Rädern.
Stromverbrauch: Energiehunger erreicht neue Dimensionen
Der drastisch gestiegene Energieverbrauch entwickelt sich zum größten Kritikpunkt an GPT-5. Forscher der University of Rhode Island ermittelten, dass eine mittellange Antwort von 1.000 Tokens bis zu 40 Wattstunden verbrauchen kann – das 20-fache des Vorgängermodells GPT-4o.
Im Durchschnitt liegt der Verbrauch bei etwa 18 Wattstunden pro Antwort, was dem Stromverbrauch einer Glühbirne in 18 Minuten entspricht. Bei täglich 2,5 Milliarden ChatGPT-Anfragen würde dies dem Strombedarf von 1,5 Millionen US-Haushalten täglich entsprechen.
OpenAI veröffentlicht seit Jahren keine offiziellen Verbrauchsdaten mehr, was Forscher zu eigenen Messungen veranlasst. Sie führen den höheren Verbrauch auf die komplexere Multimodal-Architektur und längere Rechenzeiten im Reasoning-Modus zurück.
Halluzinationen und Fehler: Alte Probleme bleiben
Trotz der Fortschritte kämpft GPT-5 weiterhin mit den klassischen Schwächen großer Sprachmodelle. Halluzinationen, faktische Fehler und Probleme bei der Verallgemeinerung außerhalb der Trainingsdaten bestehen fort.
Eine aktuelle Studie der Arizona State University bestätigt, dass auch die neuesten Modelle bei Aufgaben außerhalb ihrer Trainingsverteilung versagen – ein Problem, das Forscher seit Jahrzehnten beschäftigt. Ein Beispiel zeigt Grok (ein Konkurrenzmodell) bei der kompletten Fehldarstellung einer wissenschaftlichen Studie, deren Autor die Fehler öffentlich korrigierte.
Normalnutzer vs. Profis: Geteilte Erfahrungen
Die Reaktionen auf GPT-5 spalten sich deutlich entlang der Nutzererfahrung. Während OpenAI das automatische Routing als Erleichterung für Gelegenheitsnutzer bewirbt, zeigen sich erfahrene Anwender frustriert.
Normalnutzer profitieren theoretisch vom vereinfachten Interface, das automatisch das passende Modell auswählt. OpenAI-COO Brad Lightcap betont, dass besonders kostenlose Nutzer erstmals die Macht von Reasoning-Modellen erleben werden.
Power-User hingegen kritisieren kürzere Antworten, reduzierte Prompt-Limits und unvorhersagbares Verhalten. Im ChatGPT-Subreddit forderten über 3.000 Nutzer erfolgreich die Rückkehr zu GPT-4o. OpenAI-CEO Sam Altman musste zusagen, diese Option zu prüfen und die Nutzungsgrenzen zu verdoppeln.
Fazit: Zwischen Fortschritt und Realität
GPT-5 markiert weniger einen Durchbruch als vielmehr das Ende einer Ära übertriebener Erwartungen. Das Modell bietet solide Verbesserungen in spezifischen Bereichen, rechtfertigt aber nicht den beispiellosen Hype oder die dramatisch gestiegenen Umweltkosten.
Die Reaktion der Community signalisiert einen Wendepunkt: Nutzer werden kritischer gegenüber Marketing-Versprechen und fordern transparentere Kommunikation über Fähigkeiten und Grenzen. OpenAIs technischer Vorsprung schwindet, während der Wettbewerb intensiver wird.
Für die KI-Branche insgesamt stellt GPT-5 eine Ernüchterung dar: Reines Skalieren scheint nicht der Königsweg zur künstlichen Intelligenz zu sein. Forscher fordern bereits alternative Ansätze, die explizite Weltmodelle und symbolische Verarbeitung einbeziehen.
Die unsanfte Landung von GPT-5 könnte letztendlich der Branche guttun – indem sie zu realistischeren Erwartungen und nachhaltigeren Entwicklungsstrategien zwingt.