Tokenmaxxing: Ein direkter Steuer auf die Produktivität

LGR Reutlingen – 27 Mai 2026 | In den letzten Wochen hat ein neuer Begriff die Diskussion in der Technologiebranche angeheizt: Tokenmaxxing. Dabei handelt es sich um die Praxis, den Verbrauch von KI-Token zu maximieren, um interne Produktivitätskennzahlen zu erreichen oder auf internen Ranglisten nach oben zu klettern. Nach der kürzlichen Keynote von Google I/O, in der CEO Sundar Pichai den Begriff ausdrücklich erwähnte, werden die warnenden Stimmen aus der Branche immer lauter.
Zuletzt sorgte Peter Steinberger, Gründer von OpenClaw und derzeit bei OpenAI, für Aufsehen, als er auf X einen Screenshot teilte, der zeigte, dass er in den letzten 30 Tagen Token im Wert von 1,3 Millionen Dollar für OpenAI’s Codex verbrannt hatte.
Der Begriff, der sich an Gen-Z-Slang wie „looksmaxxing“ anlehnt, trat im April 2026 in den Mainstream, nachdem das Branchenmedium The Information über ein internes Dashboard bei Meta Platforms berichtete. Ein Mitarbeiter hatte eigenständig eine Rangliste namens „Claudeonomics“ erstellt, die Kollegen nach ihrem individuellen Tokenverbrauch bewertete und Titel wie „Token Legend“, „Model Connoisseur“ oder „Cache Wizard“ verlieh. Laut The Information verbrauchten Meta-Mitarbeiter in 30 Tagen rund 60 Billionen Token; der bestplatzierte Nutzer allein machte ungefähr 281 Milliarden Token aus – ein Volumen, das, basierend auf den regulären API-Preisen, Kosten in Höhe von mehreren hunderttausend bis mehreren Millionen US-Dollar nach sich ziehen kann. Das Dashboard wurde einige Tage später offline genommen.
Ähnliche interne Wettbewerbe wurden mittlerweile auch bei Microsoft und Amazon dokumentiert. Sogar bei Google selbst erkannte Pichai auf der I/O-Bühne an: „Einige könnten dies Tokenmaxxing nennen, und da könnte etwas Wahres dran sein.“ Laut eigenen Angaben verarbeitet Google nun 3,2 Billiarden Token pro Monat – vor zwei Jahren lag diese Zahl bei 9,7 Billionen.
Ein Beispiel: Uber verbraucht sein Jahresbudget in vier Monaten
Wie schnell sich das Spiel in ein Geschäftsproblem verwandelt, zeigt das prominenteste Beispiel der letzten Wochen: Uber. Der CTO Praveen Neppalli Naga hatte in einem Interview mit The Information im April offengelegt, dass das Mobilitätsunternehmen bereits sein gesamtes Jahresbudget 2026 für Tools wie Claude Code und Cursor innerhalb von nur vier Monaten aufgebraucht hatte. Im ersten Quartal 2026 stieg der Anteil der Ingenieure, die Claude Code nutzten, von 32 auf 84 Prozent. Bei rund 5.000 Ingenieuren gibt jeder Einzelne derzeit zwischen 500 und 2.000 Dollar pro Monat nur für KI-Tools aus – was sich auf Millionen von Dollar pro Monat summiert.
Doch auffälliger als die Zahlen ist die rückblickende Einschätzung: Der Präsident und COO von Uber, Andrew Macdonald, sprach im Rapid Response Podcast von einem „Kopf-explodierenden Moment“ und stellte öffentlich in Frage, ob höhere Token-Ausgaben tatsächlich in einem proportionalen Produktivitätsgewinn resultieren. Sein Fazit nach Gesprächen mit dem Team des CTO: Implizit wurden zwar mehr Funktionen ausgeliefert, doch eine direkte Verbindung zwischen Tokenverbrauch und „25 Prozent nützlicheren Verbraucherfunktionen“ ließ sich schlichtweg nicht herstellen. Macdonalds prägnante Bemerkung: „KI scheint kostenlos zu sein, wenn man einfach nur interessante Szenarien entwickelt. Aber letztendlich zahlt das Unternehmen dafür.“
Als Reaktion auf ähnliche Kostenexplosionen hat Microsoft den Zugriff auf Claude Code für Tausende interner Ingenieure widerrufen und sie auf GitHub Copilot CLI umgeschichtet, um Geld zu sparen, bevor das neue Finanzjahr beginnt.
Tokenmaxxing: Ein irreführendes Erfolgsmessinstrument
In genau diese Debatte tritt Eugene Cheah, CEO und Mitgründer von Featherless.ai, mit einer klaren Warnung an die Branche ein: Die Verwendung des Tokenverbrauchs als Maßstab für den Erfolg führt seiner Meinung nach dazu, dass Unternehmen über den tatsächlichen wirtschaftlichen Wert ihrer KI-Implementierungen irreführend informiert werden.
„Token-Nutzung ist eine Kennzahl, aber extremer Verbrauch unter dem Deckmantel von Tokenmaxxing ist in den meisten Fällen kein nachhaltiges Geschäftsmodell und eine ungenaue Art, den realen Wert zu verstehen“, sagt Cheah. „Es ist eine plumpen Art, Erfolg zu messen. Nicht alle Token sind gleich; unterschiedliche Aktionen erzeugen unterschiedliche Erträge für Unternehmen. Das Verfolgen dieser Zahlen zeigt, dass einige das tatsächliche Mechanismus der Kapitalrendite von KI noch immer nicht verstehen.“
Cheah argumentiert, dass die nächste Phase der Unternehmens-KI nicht durch Maximierung, sondern durch Token-Minimierung definiert wird: „Während Ingenieurteams massive Kontextfenster und hohe Durchsätze oft als Schönheitsmerkmale betrachten, wird die nächste Phase tatsächlich das Gegenteil sein. Jeder unnötige Token, der generiert wird, ist eine direkte Steuer auf die Unternehmensproduktivität, verlangsamt die Latenz und drainiert die Wirtschaftlichkeit pro Einheit.“
Und weiter: „Der Ansatz, sich auf ein riesiges Modell zu verlassen, um jede Aufgabe zu bewältigen, fördert lediglich die verschwenderische Generierung. Stattdessen verwenden intelligentere Architekturen kleinere, spezialisierte Modelle, die darauf ausgelegt sind, mit einem Bruchteil der Rechenleistung punktgenau zu arbeiten. In naher Zukunft werden die ausgeklügeltsten KI-Frameworks daran gemessen, wie wenig sie tatsächlich generieren müssen, um die Aufgabe zu erledigen.“
Cheah weist auch auf einen Effekt hin, der in der Branche derzeit besonders sichtbar wird: „Ein Anstieg des Tokenverbrauchs ist in den frühen Tagen eines hochkarätigen neuen KI-Produktstarts völlig normal, insbesondere wenn die Einführungskosten minimal sind. Doch die tatsächliche Nachfrage und die langfristige Tragfähigkeit jeder KI-Plattform werden erst dann deutlich, wenn sich die Preise normalisieren und die wahren Kosten für die Unternehmen eintreten.“
Beobachter rahmen das Phänomen des Tokenmaxxings zunehmend als ein klassisches Beispiel für Goodharts Gesetz: Die Beobachtung, dass eine Messgröße aufhört, eine gute Messgröße zu sein, sobald sie ein Ziel wird. Die COO von Linear, Cristina Cordova, fasste es auf X zusammen: Ingenieure nach Token-Ausgaben zu bewerten, sei wie ein Marketingteam danach zu bewerten, wer das meiste Geld ausgegeben hat.
Gleichzeitig ist die Bewegung nicht ohne Verteidiger: Y Combinator CEO Garry Tan hat den Begriff beispielsweise angenommen und Meta CTO Andrew Bosworth erklärte gegenüber Forbes, dass sein bester Ingenieur das Äquivalent seines Gehalts in Token ausgegeben habe – aber im Gegenzug „fünf bis zehn Mal produktiver“ gewesen sei.
Dass die Hyperscaler die Gegenwind ernst nehmen, wurde auf der I/O-Bühne offensichtlich: Pichai positionierte Gemini 3.5 Flash explizit als Ausweg aus dem Tokenmaxxing-Rausch. Ein Kunde, der täglich eine Billion Token verarbeitet, könne mehr als eine Milliarde US-Dollar jährlich sparen, indem er 80 Prozent seiner Arbeitslasten auf Flash umschichtet.
Die Botschaft, die sich aus den Fällen von Meta, Uber und Microsoft sowie aus Cheahs Warnung ableitet, ist unmissverständlich: Wer im Jahr 2026 noch davon überzeugt ist, dass mehr Token automatisch mehr Produktivität bedeuten, könnte bei der nächsten Rechnung überrascht werden.
Verwandte Artikel

Byju Raveendran: Singapore Case Won’t Derail Settlement, Deadline am 15. Juni rückt näher
LGR Reutlingen – 27 Mai 2026 | Inmitten eines sich zuspitzenden Rechtsstreits hat Byju Raveendran, CEO und Mitbegründer von BYJU’S, betont, dass die jüng…

WhatsApp führt Incognito Chat ein: KI-Gespräche verschwinden spurlos
LGR Reutlingen – 27 Mai 2026 | WhatsApp hat einen neuen privaten Chat-Modus eingeführt, der speziell für Gespräche mit künstlicher Intelligenz (KI) gedacht ist…

Outset Media Index: Ein Werkzeug für bessere Entscheidungen im Publishing
LGR Reutlingen – 27 Mai 2026 | In der dynamischen Welt des Journalismus stehen Nachrichtenredaktionen oft vor der Herausforderung, die richtigen Entscheidungen…

macOS 27 am 8. Juni: Apple beendet endgültig den Intel-Support
LGR Reutlingen – 27 Mai 2026 | Am 8. Juni 2026 wird Apple mit der Vorstellung von macOS 27 einen historischen Schritt gehen und den Support für Intel-basierte…