Kontroverse

Tokenmaxxing: „Jeder unnötig generierte Token wirkt wie eine Steuer auf die Produktivität“

Tokenmaxxing via Codex. © Peter Steinberger / Screenshot
Tokenmaxxing via Codex. © Peter Steinberger / Screenshot

Seit Wochen sorgt ein neuer Begriff in der Tech-Branche für Diskussionen: Tokenmaxxing. Gemeint ist die Praxis, den Verbrauch von AI-Tokens zu maximieren – sei es, um interne Produktivitätsmetriken zu erfüllen, sei es, um auf firmeninternen Leaderboards möglichst weit oben zu landen. Nach der jüngsten Google-I/O-Keynote, in der CEO Sundar Pichai den Begriff explizit aufgriff, mehren sich nun warnende Stimmen aus der Industrie.

Zuletzt machte Peter Steinberger, der OpenClaw gründete und jetzt bei OpenAI arbeitet, auf sich aufmerksam. auf einem Screenshot, den er bei X teilte, waer zu sehen, dass er für OpenAIs Coding-Agenten Codex in den vergangenen 30 Tagen Token im Wert von umgerechnet 1,3 Mio. Dollar verbraucht hat.

Vom Insider-Witz zum Kostenproblem

Der Begriff – angelehnt an Gen-Z-Slang wie „looksmaxxing“ oder „sleepmaxxing“ – tauchte breit im April 2026 auf, nachdem das Branchenmedium The Information über ein internes Dashboard bei Meta Platforms berichtet hatte. Ein Mitarbeiter hatte dort eigenmächtig ein Leaderboard mit dem Namen „Claudeonomics“ eingerichtet, das Kolleginnen und Kollegen nach individuellem Tokenverbrauch reihte und Titel wie „Token Legend“, „Model Connoisseur“ oder „Cache Wizard“ vergab. Laut The Information verbrauchten Meta-Mitarbeitende in 30 Tagen rund 60 Billionen Tokens; der Spitzenreiter kam allein auf rund 281 Milliarden Tokens – ein Volumen, das bei marktüblichen API-Preisen Kosten in Höhe von mehreren Hunderttausend bis Millionen US-Dollar verursachen kann. Das Dashboard wurde wenige Tage später wieder offline genommen.

Ähnliche interne Wettbewerbe wurden inzwischen auch bei Microsoft und Amazon dokumentiert. Bei Google selbst räumte Pichai auf der I/O-Bühne ein: „Manche da draußen mögen das Tokenmaxxing nennen, und da ist wohl auch etwas Wahres dran.“ Google verarbeitet nach eigenen Angaben mittlerweile 3,2 Billiarden Tokens pro Monat – vor zwei Jahren waren es noch 9,7 Billionen.

Der Fall Uber: Jahresbudget in vier Monaten verbrannt

Wie schnell aus dem Spiel ein betriebswirtschaftliches Problem wird, zeigt das prominenteste Beispiel der jüngsten Wochen: Uber. CTO Praveen Neppalli Naga hatte im April in einem Interview mit The Information offengelegt, dass der Mobilitätskonzern sein gesamtes Jahresbudget 2026 für Tools wie Claude Code und Cursor bereits nach vier Monaten aufgebraucht hatte. Im ersten Quartal 2026 war der Anteil der Engineers, die Claude Code nutzten, von 32 auf 84 Prozent gestiegen. Bei rund 5.000 Engineers gibt jede und jeder Einzelne nach derzeitigem Stand zwischen 500 und 2.000 US-Dollar pro Monat allein für AI-Tools aus – in Summe Millionenbeträge pro Monat.

Brisanter als die Zahlen ist allerdings die nachträgliche Bewertung: Uber-Präsident und COO Andrew Macdonald sprach im Rapid Response-Podcast von einem „head-exploding moment“ und stellte öffentlich infrage, ob höhere Token-Ausgaben überhaupt zu einem proportionalen Produktivitätsgewinn führen. Sein Fazit nach Gesprächen mit dem CTO-Team: Implizit würden zwar mehr Features ausgeliefert, eine direkte Linie zwischen Tokenverbrauch und „25 Prozent mehr nützlichen Consumer-Features“ lasse sich aber nicht ziehen. Macdonalds pointierter Satz: „AI seems free when you’re just sitting there coming up with interesting scenarios. But ultimately the company pays for it.“

Microsoft hat als Reaktion auf ähnliche Kostenexplosionen tausenden internen Engineers den Zugang zu Claude Code entzogen und auf GitHub Copilot CLI umgestellt, um vor dem neuen Fiskaljahr Geld zu sparen.

„Nicht alle Tokens sind gleich“

Genau in diese Debatte hinein meldet sich nun Eugene Cheah, CEO und Mitgründer von Featherless.ai, mit einer deutlichen Warnung an die Branche: Tokenverbrauch als Erfolgsmaßstab führe Unternehmen in die Irre, was den tatsächlichen ökonomischen Nutzen von AI-Einsatz betrifft.

„Token-Nutzung ist eine Metrik, aber extremer Verbrauch im Gewand von Tokenmaxxing ist in den meisten Fällen kein nachhaltiges Geschäftsmodell und eine ungenaue Art, echten Wert zu erfassen“, sagt Cheah. „Es ist ein plumpes Mittel, um Erfolg zu messen. Nicht alle Tokens sind gleich; unterschiedliche Aktionen erzeugen unterschiedliche Returns für Unternehmen. Wer diesen Zahlen nachjagt, zeigt damit, dass er die tatsächliche Mechanik des AI-ROI noch nicht verstanden hat.“

Cheah argumentiert, dass die nächste Phase der Enterprise-AI nicht von Maximierung, sondern von Token-Minimierung geprägt sein werde: „Während Engineering-Teams oft riesige Context-Fenster und hohen Durchsatz als Vanity-Metrics behandeln, geht es in der nächsten Phase tatsächlich um das Gegenteil. Jedes unnötig generierte Token wirkt wie eine direkte Steuer auf die Produktivität eines Unternehmens, verlangsamt Latenzen und zehrt an der Unit Economics“

Und weiter: „Der Ansatz, ein einziges großes Modell für jede Aufgabe zu nutzen, fördert verschwenderische Generierung. Smartere Architekturen setzen auf kleinere, spezialisierte Modelle, die mit einem Bruchteil der Rechenleistung punktgenaue Präzision liefern. In naher Zukunft werden die ausgefeiltesten AI-Frameworks daran gemessen werden, wie wenig sie tatsächlich generieren müssen, um die Aufgabe zu lösen.“

Cheah weist außerdem auf einen Effekt hin, der gerade jetzt in der Branche sichtbar wird: „Ein Anstieg des Tokenverbrauchs ist in den frühen Tagen eines spektakulären neuen AI-Produkts völlig normal, vor allem dann, wenn die Einstiegspreise minimal sind. Die echte Nachfrage und die langfristige Tragfähigkeit einer AI-Plattform zeigt sich aber erst, wenn die Preise sich normalisieren und die wahren Kosten für Unternehmen anfallen.“

Goodharts Gesetz lässt grüßen

Beobachter ordnen das Phänomen Tokenmaxxing inzwischen häufig als Lehrstück für Goodharts Gesetz ein – die Beobachtung, dass eine Kennzahl aufhört, eine gute Kennzahl zu sein, sobald sie zum Ziel erklärt wird. Linear-COO Cristina Cordova brachte es auf X auf den Punkt: Engineers nach Tokenausgaben zu reihen, sei, als würde man ein Marketing-Team danach reihen, wer am meisten Geld ausgegeben habe.

Gleichzeitig ist die Bewegung nicht ohne Verteidiger: Y-Combinator-CEO Garry Tan etwa hat den Begriff zustimmend aufgegriffen, und Meta-CTO Andrew Bosworth hatte gegenüber Forbes erklärt, sein bester Engineer gebe das Äquivalent seines Gehalts in Tokens aus – sei dafür aber „fünf- bis zehnmal produktiver“.

Dass die Hyperscaler den Gegenwind ernst nehmen, wurde auf der I/O-Bühne deutlich: Pichai positionierte Gemini 3.5 Flash explizit als Ausweg aus dem Tokenmaxxing-Kater. Ein Kunde mit einer Billion Tokens pro Tag könne durch Verlagerung von 80 Prozent seiner Workloads auf Flash mehr als eine Milliarde US-Dollar jährlich einsparen, so der Google-Chef.

Die Botschaft, die sich aus den Fällen Meta, Uber und Microsoft sowie aus Cheahs Warnung herauslesen lässt: Wer im Jahr 2026 noch glaubt, dass mehr Tokens automatisch mehr Produktivität bedeuten, könnte sich beim Blick auf die nächste Rechnung wundern.

Rank My Startup: Erobere die Liga der Top Founder!
Werbung
Werbung

Specials unserer Partner

Die besten Artikel in unserem Netzwerk

Deep Dives

Wasner + Steinschaden | Der KI Podcast

News, Modelle, Strategien

RankMyStartup.com

Steig' in die Liga der Top Founder auf!
#glaubandich CHALLENGE Hochformat.

#glaubandich CHALLENGE 2026

Österreichs größter Startup-Wettbewerb - Top-Investoren mit an Bord

2 Minuten 2 Millionen | Staffel 13

Alle Startups | Alle Deals | Alle Hintergründe
© Wiener Börse

IPO Spotlight

powered by Wiener Börse

Future{hacks}

Zwischen Hype und Realität

Trending Topics Tech Talk

Der Podcast mit smarten Köpfen für smarte Köpfe

Weiterlesen