Tokenmaxxing: Neue Statussymbol der Tech-Startups, oder nur teure Vanity Metric?
In Silicon Valley ist ein neuer Begriff zum Streitthema geworden: „Tokenmaxxing“. Gemeint ist damit der Ansatz, den Verbrauch von KI-Tokens – also jener quantifizierbaren Informationseinheiten, die KI-Modelle verarbeiten – innerhalb eines Unternehmens möglichst zu maximieren. OpenAI schätzt, dass ein Token ungefähr vier Zeichen entspricht. Was als technische Kennzahl begann, ist mittlerweile zum Glaubensbekenntnis einer neuen Arbeitskultur geworden – und zum Reibungspunkt in einer Branche, die ringt um die Frage, wie sich KI-Produktivität eigentlich messen lässt.
Tokens: Die Grundeinheit der KI-Branche
Tokens sind die kleinsten Informationseinheiten, in die KI-Sprachmodelle Texte zerlegen, um sie verarbeiten zu können. Ein Token kann ein kurzes Wort, eine Silbe, ein Wortteil oder auch nur ein einzelnes Satzzeichen sein. Das Wort „Haus“ wird typischerweise als ein einziges Token verarbeitet, längere oder zusammengesetzte Begriffe wie „Donaukraftwerk“ zerfallen hingegen in mehrere Teil-Tokens. OpenAI gibt als Faustformel an, dass ein Token im Englischen etwa vier Zeichen entspricht; im Deutschen liegt der Wert wegen längerer Wörter und Umlaute in der Regel etwas darüber, sodass ein Token hier oft nur eine Silbe abdeckt. Eine durchschnittliche DIN-A4-Seite Fließtext kommt damit schnell auf 500 bis 800 Tokens.
Abgerechnet wird bei kommerziellen KI-Anbietern wie OpenAI, Anthropic oder Google nach Tokens – und zwar in zwei Richtungen: Input-Tokens umfassen alles, was der Nutzer oder ein Agent an das Modell schickt, also Prompts, Systemanweisungen, hochgeladene Dokumente und den bisherigen Gesprächsverlauf. Output-Tokens sind das, was das Modell generiert, also die Antworten, den Code oder den Text. Beide werden getrennt verrechnet, wobei Output-Tokens meist deutlich teurer sind als Input-Tokens. Die Preise bewegen sich je nach Modellklasse im Bereich weniger Cent bis zu mehreren Dollar pro eine Million Tokens – leistungsfähigere Modelle wie Claude Opus oder GPT-5 kosten ein Vielfaches einfacherer Varianten.
Bei agentischen Systemen, die im Hintergrund eigenständig arbeiten, Dokumente lesen und Tools aufrufen, summiert sich der Verbrauch rasch: Läuft ein Coding-Agent stundenlang autonom und verarbeitet dabei immer wieder denselben Code-Kontext, können Monatsrechnungen schnell fünf- oder sechsstellige Beträge erreichen – wie die Beispiele von Cleo oder Anthropic zeigen.
Der Auslöser: Metas „Claudenomics“-Leaderboard
Die Debatte nahm Fahrt auf, als das Branchenmedium The Information Anfang April über ein internes Dashboard bei Meta Platforms berichtete. Ein Mitarbeiter hatte dort in Eigenregie ein Leaderboard aufgesetzt – intern „Claudenomics“ genannt –, das Kolleginnen und Kollegen nach ihrem individuellen Token-Verbrauch rankte und Titel wie „Token Legend“ vergab. Laut The Information verbrauchten Meta-Mitarbeiter in 30 Tagen insgesamt 60 Billionen Tokens. Der Top-Nutzer aus Metas 250 Power-Usern soll im Schnitt 281 Millionen Tokens in einem Monat konsumiert haben – ein Volumen, das Kosten in Millionenhöhe bedeuten kann.
Das Dashboard wurde vom verantwortlichen Mitarbeiter inzwischen wieder offline genommen. Meta verweist auf ein separates AI-Insights-Dashboard, das KI-Nutzung ganzheitlicher erfasst. Die öffentliche Aufmerksamkeit hatte da aber längst eine Grundsatzdiskussion ausgelöst.
Die Befürworter: „Existenziell“ für die Wettbewerbsfähigkeit
Für eine Reihe von KI-First-Unternehmen ist Tokenmaxxing keine Spielerei, sondern Überlebensstrategie. May Habib, Mitgründerin und CEO des Enterprise-KI-Start-ups Writer, bezeichnet die interne KI-Nutzung als existenziell für ihr Unternehmen. Writer betreibt selbst ein Token-Leaderboard, dessen Spitzenreiter im März knapp 11 Milliarden beziehungsweise gut 6 Milliarden Tokens verbrauchten. Auf Writers interner Plattform kosten 10 Milliarden Tokens etwas mehr als 50.000 US-Dollar. Habib räumt offen ein, dass die Kennzahl manipulierbar sei und nicht jeder Token geschäftlichen Wert erzeuge – sie nimmt das bewusst in Kauf.
Noch deutlicher positioniert sich Barney Hussey-Yeo, Gründer und CEO der Fintech-App Cleo, die aktuell mit einer Milliarde US-Dollar bewertet wird. Bei Cleo dürfen Nicht-Engineers bis zu 1.000 US-Dollar pro Monat für Tokens ausgeben, Engineers bis zu 2.000 US-Dollar. Hussey-Yeo selbst soll in einem Monat umgerechnet über 36.000 US-Dollar für Tokens verbraucht haben, weil er mehrere Agents parallel laufen ließ. Sein Credo: Wer Claude Code nicht nutze, um Produktivität und Arbeitsweise zu verbessern, werde es nicht schaffen. Innerhalb seiner 178-köpfigen Engineering-Abteilung beobachtet er eine wachsende Kluft zwischen „AI-Native“-Mitarbeitenden und „Laggards“.
Auch Nvidia-Gründer Jensen Huang äußerte sich im All-In-Podcast pointiert: Er wäre beunruhigt, wenn ein Engineer mit 500.000 US-Dollar Gehalt nicht mindestens 250.000 US-Dollar an Tokens verbrauche. Berichte der New York Times über einzelne Power-User – ein OpenAI-Engineer verarbeitete in einer Woche 210 Milliarden Tokens, ein Anthropic-Mitarbeiter produzierte eine Claude-Code-Rechnung von 150.000 US-Dollar in einem Monat – nähren die These, dass hoher Token-Verbrauch mittlerweile als Ausweis von Engagement gilt.
Die Kritiker: „Outcome maxxing“ statt Token maxxing
Auf der Gegenseite formiert sich breiter Widerspruch. Yamini Rangan, CEO von HubSpot, brachte die Gegenposition auf LinkedIn auf eine Formel: „Outcome maxxing >> token maxxing“. Andrew Lau, Mitgründer und CEO von Jellyfish, warnt, man könne den ganzen Tag tokenmaxxen und trotzdem unerwünschte Ergebnisse produzieren. Brian Elliott, CEO der Enterprise-KI-Firma Blitzy, vergleicht die Kennzahl mit der Idee, Unternehmensumsatz über die Zahl von Kaltakquise-Anrufen zu bemessen – ein untaugliches Maß.
Besonders drastisch fällt der Vergleich von Matt Calkins, CEO von Appian, aus: Er setzte Tokenmaxxing mit der sowjetischen Praxis gleich, die Qualität von Kronleuchtern nach ihrem Gewicht zu beurteilen. Jim Rowan, Principal und U.S. Head of AI bei Deloitte Consulting, ordnet das Phänomen differenzierter ein: Der Ansatz spiegle zwar den legitimen Wunsch wider, KI-Nutzung zu incentivieren, laufe aber Gefahr, Tokens zu einer Vanity Metric zu machen, weil sie nicht zwischen bloßer Nutzung und tatsächlichem Wertbeitrag unterscheide.
Stefan Camilleri, VP Engineering bei Typeform, betont, dass es nicht auf Token-Volumen ankomme, sondern auf den pro Token erzeugten Wert. Jitender Aswani, VP Engineering beim mit 3,35 Milliarden US-Dollar bewerteten Datenplattform-Anbieter Starburst, verfolgt einen Mittelweg: Keine Limits, aber auch keine forcierte Maximierung. Intern spricht man dort vom Prinzip „let a thousand flowers bloom“. Als harte Kennzahlen dienen DORA-Metriken, Entwickler-Velocity, Code-Qualität und Incident-Resolution-Zeiten. Seit Dezember sei die Time-to-Production bei Starburst um 60 Prozent gesunken; ein Drittel des Codes werde inzwischen von Claude generiert.
Salesforce prescht mit eigener Alternative vor
In diese Gemengelage stößt nun Salesforce mit einem eigenen Vorschlag: den Agentic Work Units (AWUs). Die Kennzahl soll KI-Inputs wie Tokens und Compute in konkrete Outputs übersetzen – also in tatsächlich erledigte Arbeit. Salesforce zufolge nutzt Singapore Airlines AWUs, um die Bearbeitungsdauer von Kundenservice-Anfragen zu messen; Williams Sonoma setzt sie ein, um nachzuvollziehen, wie KI-Agents Produktempfehlungen herleiten. Laut Unternehmensangaben wurden bis zum vierten Quartal 2,4 Milliarden AWUs auf der Plattform generiert, mit dreistelligem Jahreswachstum.
Madhav Thattai, Executive Vice President und GM von Salesforce AI, bringt die Logik auf den Punkt: Endlose Claude-Code-Loops ohne Kundennutzen seien wertlos. Das Ziel dürfe nicht „agentische Transformation“ heißen, sondern müsse an Kundenzufriedenheit gekoppelt sein.
Kritik an den AWUs bleibt nicht aus: Salesforce definiert die Formel, legt fest, was als Unit zählt, und kontrolliert die Benchmarks selbst. Ohne externe Prüfung könnte auch diese Metrik zur Vanity-Kennzahl werden.
Einordnung: Eine Branche sucht ihre KPIs
Die Tokenmaxxing-Debatte ist im Kern eine Messbarkeitsdebatte. In einem wirtschaftlichen Umfeld mit stärkerer Board-Kontrolle wirkt reiner Token-Verbrauch ohne nachweisbaren Geschäftsnutzen schnell wie Conspicuous Consumption. Gleichzeitig argumentieren Befürworter nicht unplausibel, dass Barrieren zur KI-Nutzung in frühen Adoptionsphasen bewusst niedrig gehalten werden müssen, um Experimentierfreude zu fördern.
Dass auch persönliche Anekdoten zur Szenefolklore werden – Imbue-Mitgründer Josh Albrecht etwa erklärte auf einem Axios-Event, er habe sich nicht rasiert, weil er mit Claude so viel Code ausliefere; Brian Alvey, CTO von WordPress VIP, bekannte, er bekomme beim Gedanken an den Token-Verbrauch „keine Luft mehr“ – zeigt, wie sehr das Thema inzwischen auch eine kulturelle Dimension in der Tech-Branche angenommen hat.
Was bleibt, ist die offene Frage, welche Kennzahl sich durchsetzt: rohe Token-Konsumation, outputorientierte Metriken wie AWUs oder klassische Engineering-KPIs. Klar ist nur: Ein Jahr nach dem Durchbruch agentischer KI-Systeme hat die Branche noch keinen Konsens darüber gefunden, wie sich der wirtschaftliche Nutzen dieser Werkzeuge sauber beziffern lässt.


