„LMArena ist wie Krebs“: Wie LLM Rankings den KI-Sektor verzerren
Wer sich einen schnellen Überblick verschaffen will, wie gut (oder schlecht) neue KI-Modelle von OpenAI, xAI, Google, Anthropic, DeepSeek und vielen vielen anderen Unternehmen sind, hat dazu mehrere Möglichkeiten. Entweder glaubt man den PR-Aussendungen der Firmen, die gerne ausgewählte Testergebnisse hervorheben und sich als Weltklasse verkaufen. Oder man befragt unterschiedliche Web-Dienste wie LMArena (neuerdings 1,7 Milliarden Dollar wert, mehr dazu hier), Artificial Analysis oder OpenRouter, die jeweils ihre eigenen Bewertungsmethoden und Rankings für LLMs haben.
Doch was sagen diese Statistiken und Bestenlisten wirklich aus? Generell werden LMArena, wo User LLMs im Blindtest bewerten, Artificial Analysis oder auch wichtige Benchmarks wie „Humanity’s Last Exam“ (2.500 Experten-Aufgaben, die KI-Modelle lösen müssen) rauf und runter zitiert, um neue KI-Modelle und ihre Fähigkeiten einzuordnen. Doch das eine richtige Ranking gibt es schlicht weg nicht – das geht so weit, dass etwa OpenAI zuletzt mit „FrontierScience“ eine hauseigene Bewertung der Fähigkeit von KI, wissenschaftliche Forschungsaufgaben zu erledigen, eingeführt hat. Das ist in etwa so, wie wenn Volkswagen eine eigene Methode auf den Markt bringt, um Grenzwerte für Autoabgase zu bewerten.
Dass KI-Unternehmen ihre Modelle gerne so hindrehen, dass sie gerade in Benchmark-Tests gut abschneiden, zeigte der Fall Meta. Wie der ehemalige KI-Chef unter Mark Zuckerberg, Yann LeCun, kürzlich in einem Interview eingestand, hatte Meta für das Benchmark-Testen des Llama 4-Modells „ein wenig geschummelt“.
Wem also glauben? Tatsächlich stehen die Methoden zur Bewertung künstlicher Intelligenz zunehmend in der Kritik. Eine umfassende Studie unter Leitung des Oxford Internet Institute sowie scharfe Angriffe auf populäre Bewertungsplattformen wie LMArena werfen grundlegende Fragen auf: Wie können wir verlässlich messen, was KI-Systeme tatsächlich leisten?
Oxford-Studie attestiert Benchmarks wissenschaftliche Mängel
Ein internationales Forscherteam von 42 Wissenschaftlern führender Institutionen – darunter die Universität Oxford, EPFL, Stanford University, die Technische Universität München, UC Berkeley und Yale University – hat 445 KI-Benchmarks untersucht. Die Studie mit dem Titel „Measuring What Matters: Construct Validity in Large Language Model Benchmarks“ wurde für die renommierte NeurIPS-Konferenz angenommen und kommt zu einem ernüchternden Ergebnis: Viele der standardisierten Tests zur Bewertung großer Sprachmodelle (LLMs) erfüllen grundlegende wissenschaftliche Standards schlichtweg nicht.
„Benchmarks bilden die Grundlage für nahezu alle Behauptungen über Fortschritte in der KI“, erklärt Andrew Bean, Hauptautor der Studie. „Aber ohne gemeinsame Definitionen und solide Messmethoden wird es schwierig zu wissen, ob Modelle wirklich besser werden oder nur so erscheinen.“
Nur 16 Prozent nutzen statistische Methoden
Die Befunde der Oxford-Forscher sind deutlich: Lediglich 16 Prozent der untersuchten Studien verwendeten statistische Methoden beim Vergleich von Modellleistungen. Das bedeutet, dass vermeintliche Überlegenheit eines Systems gegenüber einem anderen auf reinem Zufall beruhen könnte und nicht auf tatsächlicher Verbesserung.
Etwa die Hälfte der Benchmarks zielte darauf ab, abstrakte Konzepte wie „logisches Denken“ oder „Unschädlichkeit“ zu messen, ohne diese Begriffe klar zu definieren. Ohne gemeinsames Begriffsverständnis sei es unmöglich sicherzustellen, dass Tests tatsächlich das messen, was sie vorgeben zu messen, so die Forscher.
Problematische Bewertungspraxis mit weitreichenden Folgen
Die Studie identifiziert mehrere systematische Probleme: Tests würden häufig nicht nur das zu messende Konzept prüfen, sondern gleichzeitig andere Faktoren vermischen. Ein Beispiel: Ein Logikrätsel mag korrekt gelöst werden, doch wenn die Antwort nicht in einem bestimmten, komplexen Format präsentiert wird, gilt die Lösung als falsch – das Ergebnis erscheint schlechter als die tatsächliche Leistung.
Zudem zeigen Modelle „sprödes Verhalten“: Sie lösen einfache mathematische Aufgaben korrekt, scheitern aber, sobald Zahlen oder Formulierungen leicht verändert werden. Dies deute darauf hin, dass Muster auswendig gelernt, nicht aber echtes Verständnis entwickelt wurde.
Besonders problematisch: Wird ein Modell bei Multiple-Choice-Fragen medizinischer Examina erfolgreich, wird daraus nicht selten abgeleitet, es verfüge über ärztliche Expertise – eine Schlussfolgerung, die laut Studie irreführend ist.
Benchmarks als Grundlage für Regulierung
Die Bedeutung der Kritik geht weit über akademische Debatten hinaus. Benchmarks leiten Forschungsprioritäten, bestimmen den Wettbewerb zwischen Modellen (vor allem medial) und fließen zunehmend in politische und regulatorische Rahmenbedingungen ein. Die EU-KI-Verordnung etwa fordert Risikobewertungen basierend auf „angemessenen technischen Tools und Benchmarks“.
„Wenn Benchmarks nicht wissenschaftlich fundiert sind, vermitteln sie Entwicklern und Regulierungsbehörden möglicherweise ein irreführendes Bild davon, wie leistungsfähig oder sicher KI-Systeme wirklich sind“, warnt die Studie.
Dr. Adam Mahdi, Mitautor der Untersuchung, betont: „Diese Arbeit spiegelt die Art von großangelegter Zusammenarbeit wider, die das Feld benötigt. Indem wir führende KI-Labore zusammenbringen, gehen wir eine der fundamentalsten Lücken in der aktuellen KI-Bewertung an.“
LMArena: Kritik an „gamifizierten“ Bewertungen
Während die Oxford-Studie systematische Schwächen von Benchmark-Designs analysiert, geht das KI-Unternehmen SurgeAI in einem kontroversen Artikel noch einen Schritt weiter. Unter dem provokanten Titel „LMArena is a cancer on AI“ attackiert SurgeAI eine der populärsten Bewertungsplattformen der Branche scharf.
Wie schon des öfteren berichtet, LMArena funktioniert als öffentliche Rangliste, bei der Nutzer zwei KI-Antworten vergleichen und die bessere auswählen. Daraus entsteht dann eine umfangreiche Liste, die KI-Modelle in unterschiedlichen Bereichen wie Texten, Coding, Bildgenerierung und Co. ranken. Das Problem laut SurgeAI: „Zufällige Internetnutzer verbringen zwei Sekunden mit Überfliegen und klicken dann ihren Favoriten an. Sie lesen nicht sorgfältig. Sie überprüfen keine Fakten und versuchen es nicht einmal.“
Belohnung für Oberflächlichkeit statt Genauigkeit
Die Kritik konzentriert sich auf die Anreizstruktur des Systems. Der einfachste Weg, im Ranking aufzusteigen, bestehe nicht darin, intelligenter zu sein, sondern menschliche Aufmerksamkeitsspannen zu manipulieren. SurgeAI identifiziert drei Hauptstrategien, die Modelle erfolgreich machen:
- Ausführlichkeit: Längere Antworten wirken autoritativer
- Aggressive Formatierung: Fettgedruckte Überschriften und Aufzählungszeichen sehen nach professionellem Schreiben aus
- Emotionalität: Bunte Emojis erregen Aufmerksamkeit
„Es spielt keine Rolle, ob ein Modell vollständig halluziniert“, so der Artikel. „Wenn es beeindruckend aussieht – wenn es die Ästhetik von Kompetenz hat – werden LMSYS-Nutzer dafür stimmen, auch gegen eine korrekte Antwort.“
52 Prozent Fehlerquote in eigener Analyse
SurgeAI analysierte eigenen Angaben zufolge 500 Abstimmungen auf der Plattform und widersprach 52 Prozent davon, in 39 Prozent der Fälle sogar entschieden. Als Beispiel nennt das Unternehmen eine Frage nach einem Zitat aus „Der Zauberer von Oz“: Die halluzinierte Antwort gewann die Abstimmung, während die faktisch korrekte verlor. In einem anderen Fall wurde eine mathematisch unmögliche Behauptung über Kuchenformen bevorzugt – weil sie selbstbewusster formuliert war. „Im Reich von LMArena schlägt Selbstbewusstsein Genauigkeit und Formatierung schlägt Fakten“, kritisiert der Artikel.
Als besonders anschauliches Beispiel führt SurgeAI eine Version von Metas KI-Modell Maverick an, das speziell für die Plattform optimiert worden sei. Auf die simple Frage „Wie spät ist es?“ habe das Modell mit aggressiver Formatierung, Emojis und ausweichenden Formulierungen reagiert – „jeder Trick aus dem LMArena-Handbuch“ –, nur um die gestellte Frage nicht zu beantworten.
Systemisches Problem oder notwendiges Übel?
Die Kritik an LMArena konzentriert sich auf die grundlegende Struktur: Das System stehe vollständig dem Internet offen, basiere auf „gamifizierter Arbeit unkontrollierter Freiwilliger“ ohne Qualitätskontrolle oder Konsequenzen bei wiederholtem Nicht-Erkennen von Halluzinationen.
Zwar geben die Betreiber von LMArena öffentlich zu, dass ihre Bewertenden Emojis und Länge gegenüber Substanz bevorzugen, und verweisen auf verschiedene Korrekturmaßnahmen. Doch SurgeAI zeigt sich skeptisch: „Sie versuchen Alchemie: rigorose Bewertung aus Müll-Input zu zaubern. Aber man kann kein defektes Fundament flicken.“
Die Folgen seien gravierend: „Wenn die gesamte Branche für eine Metrik optimiert, die ‚Halluzination-plus-Formatierung‘ über Genauigkeit belohnt, bekommen wir Modelle, die für Halluzination-plus-Formatierung optimiert sind.“
Der Ruf nach Reform
Beide Veröffentlichungen – die wissenschaftliche Studie aus Oxford und die industrielle Kritik von SurgeAI – fordern grundlegende Reformen der Bewertungspraxis.
Die Oxford-Forscher schlagen acht konkrete Verbesserungen vor, darunter:
- Präzise Definition und Isolation: Klare Definitionen des zu messenden Konzepts und Kontrolle unabhängiger Faktoren
- Repräsentative Evaluationen: Testfragen müssen reale Bedingungen widerspiegeln und den gesamten Umfang der Zielfähigkeit abdecken
- Verstärkte Analyse: Einsatz statistischer Methoden zur Darstellung von Unsicherheit, detaillierte Fehleranalyse und Rechtfertigung der Validität
Die Forscher stellen eine „Construct Validity Checklist“ zur Verfügung – ein praktisches Werkzeug für Forschende, Entwickler und Regulierungsbehörden, um zu beurteilen, ob ein KI-Benchmark wissenschaftlichen Designprinzipien folgt.
SurgeAI formuliert es drastischer und fordert Unternehmen zu einer „brutalen Entscheidung“ auf: zwischen der Optimierung für glänzende Ranglisten und kurzfristigem Engagement einerseits – „im Stil der schlimmsten Dopamin-Schleifen“ – oder dem Festhalten an Prinzipien, praktischem Nutzen und echter Qualität andererseits.
Industrie am Scheideweg
Tatsächlich steht die KI-Industrie vor einem Dilemma. Viele Unternehmen argumentieren, sie könnten LMArena nicht ignorieren: Kunden orientierten sich an der Rangliste bei der Modellauswahl, und kommerzielle Notwendigkeiten zwängen zur Teilnahme am „Spiel“.
Doch SurgeAI verweist darauf, dass einige führende Labore bereits einen anderen Weg gewählt hätten: „Sie hielten an ihren Werten fest. Sie ignorierten die gamifizierten Rankings. Und Nutzer liebten ihre Modelle trotzdem – weil Hype irgendwann stirbt und Qualität die einzige Metrik ist, die den Zyklus überlebt.“
Die Debatte berührt einen Kernkonflikt moderner KI-Entwicklung: Zwischen messbaren, aber möglicherweise oberflächlichen Metriken und schwerer quantifizierbarer, aber substanziellerer Qualität müssen Entwickler, Investoren und Regulierende wählen – eine Entscheidung mit weitreichenden Folgen für die Zukunft der Technologie.
Gwern, ein in der KI-Community respektierter Kommentator, brachte es auf den Punkt: „Es ist höchste Zeit für die LMArena-Leute, sich hinzusetzen und gründlich darüber nachzudenken, ob es sich überhaupt noch lohnt, das System zu betreiben, und ab welchem Punkt sie mehr Schaden als Nutzen anrichten.“

