Bis zu 99% Rabatt: Xiaomi und DeepSeek attackieren mit AI-Token zu Schleuderpreisen
Innerhalb weniger Tage haben gleich zwei chinesische KI-Anbieter ihre API-Preise für Token dauerhaft und drastisch gesenkt und damit den globalen Preiskampf um große Sprachmodelle in eine neue Phase geführt. Xiaomi zieht mit seiner MiMo-V2.5-Serie ab heute, dem 27. Mai 2026, Tarifsenkungen von bis zu 99 Prozent ein. DeepSeek schreibt parallel die im Vormonat eingeführte Rabattaktion für sein Flaggschiff V4-Pro permanent fest, die Nutzungskosten verbleiben damit bei einem Viertel des ursprünglichen Niveaus.
Beide Schritte zielen auf dasselbe Marktsegment: zahlende Enterprise-Kunden und Entwickler:innen, die täglich Milliarden Token verarbeiten und für die der Preis pro Million Token mittlerweile zur härtesten betriebswirtschaftlichen Kennzahl geworden ist.
Xiaomi: Preisreduktion bis zu 99 Prozent und Reset aller Token-Pakete
Mit der MiMo-V2.5-Reihe positioniert sich Xiaomi unverkennbar als Preisbrecher. Der chinesische Konzern, der unter Konzernchef Lei Jun bis 2029 mindestens 8,7 Milliarden US-Dollar in KI investieren will, kündigte gleich mehrere Maßnahmen in einem Paket an:
- Die API-Preise der gesamten V2.5-Serie sinken laut offizieller Ankündigung um bis zu 99 Prozent gegenüber dem bisherigen Tarif. Die bisherige Differenzierung nach Eingabelänge entfällt – es gibt nur noch einen einheitlichen Preis pro Million Token.
- Bestandskund:innen mit aktivem „Token Plan“ erhalten künftig die fünf- bis achtfache Menge nutzbarer Credits zum gleichen Preis.
- Alle bereits verbrauchten Credits laufender Pakete werden zum Stichtag vollständig zurückgesetzt – ein klassischer Lock-in-Move, um Abwanderung zur Konkurrenz zu verhindern.
- Das Ende April gestartete „100 Trillion Token Creator Incentive“-Programm wurde am 26. Mai vorzeitig beendet, weil das gesamte Token-Volumen bereits ausgeschüttet wurde.
Auf Drittanbieter-Plattformen wie OpenRouter wird MiMo-V2.5-Pro derzeit bei 0,435 US-Dollar pro Million Input-Token und 0,87 Dollar pro Million Output-Token gelistet. Das Modell verfügt über ein Kontextfenster von einer Million Token und positioniert sich laut Xiaomi auf Benchmarks wie SWE-bench Pro und ClawEval gegen die westliche Top-Liga.
DeepSeek: Vom temporären Rabatt zum Dauerpreis
DeepSeek wiederum macht aus seiner befristeten Rabattaktion einen Dauerzustand. Die API-Preise für V4-Pro bleiben bei einer Spanne von 0,025 bis 6 Yuan pro Million Token – umgerechnet rund 0,0035 bis 0,83 US-Dollar. Vor der Anpassung lag das Niveau noch bei 0,1 bis 24 Yuan. Die exakte Höhe hängt davon ab, ob es sich um reine Texteingabe oder die deutlich rechenintensivere Textgenerierung handelt.
Interessant ist die parallele Kapitalbeschaffung: Das von Hedgefonds-Milliardär Liang Wenfeng gegründete Labor öffnet erstmals den Cap Table für externe Investoren. Laut Berichten von Financial Times, Bloomberg und South China Morning Post wird eine Runde im Volumen von drei bis vier Milliarden US-Dollar bei einer Bewertung von bis zu 50 Milliarden Dollar angestrebt – angeführt vom staatlichen chinesischen Halbleiterfonds „Big Fund III“, mit Beteiligung von Tencent, Alibaba und Hillhouse. Es wäre die erste bekannte Beteiligung des Big Fund an einem chinesischen LLM-Anbieter – ein politisches Signal, dass Peking DeepSeek als nationalen Champion positioniert.
Wie sind solche Preise überhaupt darstellbar?
Die entscheidende Frage für westliche Anbieter und Investor:innen lautet: Wie können chinesische Anbieter Preise aufrufen, die einen Bruchteil dessen betragen, was OpenAI oder Anthropic verlangen, ohne dabei strukturell Verluste zu schreiben? Die Antwort liegt in einer Mischung aus drei Ebenen – Hardware, Software und politischer Ökonomie.
1. Inferenz-Optimierung auf Software-Ebene. In seiner Ankündigung legt Xiaomi überraschend offen, wo der Hebel sitzt. Das Inferenz-Team des Konzerns hat die KV-Cache-Architektur – also den Speichermechanismus, der bei der Token-Generierung die wichtigsten Zwischenergebnisse vorhält – grundlegend umgebaut. Zum Einsatz kommt SGLang HiCache in Kombination mit Sliding Window Attention (SWA). HiCache organisiert den KV-Cache nach dem Prinzip moderner CPU-Architekturen in drei Ebenen: GPU-Speicher als L1, Host-Memory als L2 und verteilter Storage als L3. Laut Xiaomi sinkt damit das zwischen den Speicherebenen zu transferierende Datenvolumen auf rund ein Siebtel des bisherigen Werts, die Zahl cachebarer Token steigt um den Faktor fünf. Übersetzt heißt das: Bei wiederkehrenden Anfragen mit ähnlichen Präfixen – etwa in Coding-Agents oder bei Multi-Turn-Konversationen – muss das Modell deutlich seltener neu rechnen.
2. Eigene Hardware-Strategie. DeepSeek setzt für V4 konsequent auf Huawei Ascend 950-Halbleiter statt auf Nvidia-GPUs, die für chinesische Kunden durch US-Exportkontrollen ohnehin schwer zu beschaffen sind. Das Unternehmen hat angedeutet, dass die Infrastrukturkosten weiter sinken werden, sobald die sogenannten Supernodes der Ascend-Reihe in der zweiten Jahreshälfte 2026 großflächiger ausgeliefert werden. Die Kombination DeepSeek + Huawei gilt strategisch als Kern eines eigenständigen chinesischen KI-Stacks. Was als Notlösung gegen Exportbeschränkungen begann, entwickelt sich zur strukturellen Kostenarbitrage: Ascend-Chips sind in China günstiger zu beschaffen und werden ohne US-Margenaufschlag verrechnet.
3. Politische Ökonomie. Mit dem Einstieg des „Big Fund III“ – sollte er sich bestätigen – würde DeepSeek faktisch zum staatlich co-finanzierten Champion. Das verändert die betriebswirtschaftliche Logik fundamental: Ein Unternehmen, das nicht primär kurzfristig profitabel sein muss, sondern strategische Marktanteile in einem geopolitisch umkämpften Sektor gewinnen soll, kann Preise aufrufen, die für rein privatwirtschaftlich finanzierte Konkurrenten betriebswirtschaftlich kaum tragbar sind. Auch Xiaomi finanziert seine KI-Sparte aus dem Cashflow eines profitablen Konsumelektronik-Konzerns mit angekündigten 8,7-Milliarden-Dollar-Investitionen quer.
Was das für den Markt bedeutet
Für westliche Anbieter wie OpenAI und Anthropic wird die Lage damit unangenehmer. Beide Unternehmen verlangen für ihre Spitzenmodelle pro Million Token typischerweise ein Vielfaches dessen, was DeepSeek und Xiaomi nun aufrufen. Bei reinen Commodity-Workloads – Klassifikation, Übersetzung, einfache Extraktion – wird die Wechselbarriere weiter sinken. Anders sieht es bei komplexen Reasoning-, Agenten- und Coding-Workloads aus, in denen Modell-Qualität, Sicherheits-Tooling und Enterprise-Integration weiterhin die Differenzierungsmerkmale bleiben.
Für Startups und Entwickler:innen bedeutet die Entwicklung kurzfristig vor allem eines: Capable Reasoning-Modelle werden zunehmend wie Infrastruktur bepreist – nicht wie Premium-Software. Wer heute eine Idee mit KI-Backend validiert, kann das zu Stückkosten tun, die vor zwei Jahren undenkbar gewesen wären.
Mittel- bis langfristig stellt sich die strategischere Frage: Wenn die Inferenz-Kosten weiter in Richtung Selbstkosten gedrückt werden, verschiebt sich die Wertschöpfung weg vom reinen Modell und hin zu Datenintegration, Tooling, Sicherheit und Vertikal-Expertise. Genau dort wollen die westlichen Anbieter ihre Pricing-Macht verteidigen. Ob das gelingt, entscheidet sich auch daran, wie aggressiv chinesische Anbieter ihren Kostenvorteil künftig in westliche Märkte hineinverlängern – und wie schnell Open-Source-Alternativen die Differenz auf der Modellseite weiter einebnen.

