Alibaba QwQ-32B: Kleines Open-Source-Modell ähnlich gut wie DeepSeek R1

Der chinesische Internet-Riese Alibaba Cloud hat mit QwQ-32B ein neues KI-Modell vorgestellt, das trotz seiner vergleichsweise geringen Größe mit deutlich umfangreicheren Konkurrenzmodellen mithalten kann. Das auf Reasoning spezialisierte Modell basiert auf Alibabas Qwen2.5-32B-Fundament und verfügt über lediglich 32,5 Milliarden Parameter, liefert aber eine vergleichbare Leistung wie DeepSeek R1 mit seinen massiven 671 Milliarden Parametern. Das QwQ-32B-Modell zeichnet sich besonders durch seine Stärken in mathematischem Reasoning und Programmieraufgaben aus. In internen Benchmark-Tests erreichte es folgende Werte:
- 65,2% bei GPQA (einem wissenschaftlichen Reasoning-Test auf Graduiertenniveau)
- 50% bei AIME (fortgeschrittene Mathematik)
- 90,6% bei MATH-500, der ein breites Spektrum mathematischer Probleme abdeckt
Das Qwen-Team von Alibaba betont: “Dieses bemerkenswerte Ergebnis unterstreicht die Wirksamkeit von Reinforcement Learning, wenn es auf robuste Foundation Models angewendet wird, die mit umfangreichem Weltwissen vortrainiert wurden.”
Was noch nicht zu sehen ist, wie unabhängige Tester:innen QwQ-32B sehen, in den Charts der Chatbot Arena etwa findet sich das Modell noch nicht im Ranking.
Open-Source-Ansatz als Unterscheidungsmerkmal
Im Gegensatz zu vielen anderen KI-Systemen – insbesondere aus Amerika und westlichen Ländern – die hinter Bezahlschranken operieren, wird QwQ-32B als Open-Source-Software unter der Apache 2.0-Lizenz bereitgestellt. Dies ermöglicht eine breite Nutzung und Weiterentwicklung durch die Community – und erinnert natürlich an die Strategie von DeepSeek, das R1 ebenfalls unter MIT-Lizenz als Open Source veröffentlichte. Das hat etwa perplexity sehr shcnell ausgenutzt, um DeepSeek R1 in seine App zu integrieren.
Bereits kurz nach der Veröffentlichung haben Ollama und Groq Unterstützung für das Modell implementiert, was bedeutet, dass Nutzer nun Open-Source-Agenten programmieren und das Modell in Drittanbieter-Apps verwenden können. Zudem werden mit Groqs Infrastruktur rekordverdächtige Inferenzgeschwindigkeiten erreicht.
Paradigmenwechsel in der KI-Entwicklung
Der Effizienzgewinn von QwQ-32B markiert eine potenzielle Verschiebung in der Branche, in der der Trend bisher zu immer größeren Modellen ging. QwQ-32B verfolgt stattdessen einen ähnlichen Ansatz wie DeepSeek R1 und zeigt, dass clevere Trainingstechniken möglicherweise ebenso wichtig sind wie die reine Parameteranzahl, wenn es um KI-Leistung geht.
Das Modell hat jedoch auch Einschränkungen. Es hat gelegentlich Schwierigkeiten mit Sprachmischungen und kann in rekursive Reasoning-Schleifen geraten, die seine Effizienz beeinträchtigen. Zudem verfügt es über ein begrenztes Kontextfenster von 32K Token und unterliegt als chinesisches KI-Modell lokalen regulatorischen Anforderungen, die Antworten zu politisch sensiblen Themen einschränken können.
Alibaba betrachtet diese Veröffentlichung als erst den Anfang: “Dies markiert Qwens ersten Schritt bei der Skalierung von Reinforcement Learning zur Verbesserung der Reasoning-Fähigkeiten. Wir sind zuversichtlich, dass die Kombination stärkerer Foundation Models mit RL, unterstützt durch skalierte Rechenressourcen, uns näher an die Erreichung von Artificial General Intelligence (AGI) heranführen wird.”
Die Veröffentlichung folgt auf Alibabas Einführung von Qwen 2.5-Max im Januar, von dem das Unternehmen behauptete, es übertreffe Konkurrenten “fast auf ganzer Linie”. Der Einfluss chinesischer Modelle in der KI-Branche ist mittlerweile so bedeutend, dass sie als wichtiger Faktor im globalen KI-Wettbewerb angesehen werden.