Launch

Moonshot AI bringt Kimi K2 Thinking: Der nächste Open-Source-Schuss aus China

co-written by newsrooms.ai06. November 2025, 20:21

Kimi K2-Thinking-Modell in Betrieb. © Moonshot AI

Startup Interviewer: Gib uns dein erstes AI Interview

Und der nächste Angriff folgt sogleich: Nachdem kürzlich das chinesische Startup MiniMax ein zehn Mal günstigeres Open-Source-Modell gegen die US-amerikanische Konkurrenz lancierte, folgt nun Moonshot AI. Ebenfalls in China beheimatet, bringt das Startup mit Kimi K2 Thinking ein neues Open-Source-Modell im „Reasoning“-Bereich an den Start, das es in vielen Belangen mit jenen von OpenAI und Anthropic aufnehmen soll. Für das Training soll Kimi K2 Thinking nur 4,6 Millionen Dollar gekostet haben, berichtet CNBC.

Moonshot AI hat mit Kimi K2 Thinking ein neues Open-Source-KI-Modell vorgestellt, das direkt gegen die etablierten Reasoning-Modelle von OpenAI und Anthropic antritt. Das Unternehmen bezeichnet K2 Thinking als „unser bestes Open-Source-Thinking-Modell“ und positioniert es als „denkenden Agenten“, der „Schritt für Schritt denkt, während er Tools verwendet“.

Die Konkurrenz ist damit eröffnet: Während OpenAI und Anthropic bereits seit Monaten Reasoning-Modelle im Einsatz haben, setzt Moonshot AI nun mit einem frei verfügbaren Modell nach. K2 Thinking ist ab sofort auf kimi.com verfügbar und kann über eine API genutzt werden.

Moonshot AI will sich mit OpenAI und Anthropic messen

Die technischen Daten lesen sich ambitioniert: K2 Thinking erreicht 44,9 Prozent auf Humanity’s Last Exam (HLE), einem Benchmark mit „tausenden Fragen auf Expertenniveau über mehr als 100 Fachgebiete“. Auf BrowseComp, das die Fähigkeit zum kontinuierlichen Browsen und Recherchieren testet, kommt das Modell auf 60,2 Prozent – deutlich über der menschlichen Baseline von 29,2 Prozent. Beim Coding-Benchmark SWE-Bench Verified liegt K2 Thinking bei 71,3 Prozent. Das Besondere: Das Modell kann „200 bis 300 sequenzielle Tool-Aufrufe ohne menschliches Eingreifen ausführen“ und dabei „über Hunderte von Schritten hinweg kohärent denken“.

Moonshot AI demonstriert die Leistungsfähigkeit anhand eines PhD-Level-Mathematikproblems aus der hyperbolischen Geometrie, das K2 Thinking durch 23 verschachtelte Reasoning- und Tool-Aufrufe löst. Das Modell durchsucht wissenschaftliche Papers, führt Python-Code aus, verifiziert Zwischenergebnisse und leitet schließlich eine geschlossene Formel ab. Diese Fähigkeit zur „Planung, zum Reasoning, zur Ausführung und Anpassung über Hunderte von Schritten“ unterscheidet K2 Thinking dem Hersteller zufolge von klassischen Large Language Models.

Von Code-Generierung bis komplexer Web-Recherche

In der Praxis zeigt K2 Thinking breite Einsatzmöglichkeiten: Bei Coding-Tasks erreicht das Modell 61,1 Prozent auf SWE-Multilingual und liefert „bemerkenswerte Verbesserungen bei HTML, React und komponentenintensiven Frontend-Aufgaben“. Moonshot AI demonstriert, wie das Modell aus einem einzigen Prompt heraus vollständige, responsive Websites oder Word-Klone erstellt. Bei agentischen Suchaufgaben durchläuft K2 Thinking dynamische Zyklen aus „denken → suchen → Browser nutzen → denken → Code“, um mehrdeutige, offene Probleme zu zerlegen und zu lösen.

Ein Beispiel illustriert die Recherche-Fähigkeiten: Aus einer komplexen Beschreibung mit mehreren Kriterien (Universitätsabschluss, NFL-Karriere, Sci-Fi-Film-Rolle, Prison-Drama-Auftritt, Interview-Aussage) identifiziert K2 Thinking systematisch den gesuchten Schauspieler Jimmy Gary Jr. und dessen Filmrolle Rudy Cox. Das Modell führt dabei über 20 Suchvorgänge durch, verifiziert Informationen über Wikipedia, IMDb und Interviews und kombiniert die Ergebnisse zu einer schlüssigen Antwort. Diese „Long-Horizon-Planung“ und „adaptive Reasoning“ unterscheiden K2 Thinking von reinen Sprachmodellen.

Mit K2 Thinking verschärft sich der Wettbewerb im Reasoning-Segment: Während OpenAI und Anthropic proprietäre Modelle betreiben, setzt Moonshot AI auf Open Source und aggressive Benchmark-Performance. Die Test-Time-Skalierung – also die Verlängerung der Denkzeit durch mehr Reasoning-Token und Tool-Aufrufe – wird damit zum neuen Schlachtfeld im KI-Rennen. Ob sich das chinesische Modell in der Praxis gegen GPTs und Claude durchsetzt, werden die kommenden Monate zeigen. Die technischen Voraussetzungen sind jedenfalls geschaffen.