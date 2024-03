Bei all dem Hype rund um AI-Modelle stellt sich oft die Frage, wie „intelligent“ diese wirklich sind. Das gebräuchlichste Maß der Intelligenzmessung bei Menschen ist der Intelligenzquotient (IQ), der die intellektuelle Leistung einer Person im Vergleich zu einer vorab bestimmten Vergleichsgruppe feststellt. Der durchschnittliche IQ von Menschen liegt in der Regel bei 100. Blogger Maxim Lott hat nun einen IQ-Test bei aktuellen AI-Modellen durchgeführt. Es hat sich gezeigt, dass Claude-3 von Anthropic seine Rivalen, darunter ChatGPT-4 von OpenAI, schlägt, und außerdem die erste KI ist, die den für Menschen gewöhnlichen IQ von 100 überschreitet.

Claude-3 erreicht Durschnitts-IQ von Menschen

Bei seinem Test hat sich Maxim Lott auf die Frage konzentriert, wie AI-Modelle denken, weniger darauf, wie sie Bilder sehen und interpretieren. In letzterem Fall haben alle Modelle nämlich noch Schwächen. Stattdessen erstellte Lott eine verbale Übersetzung des norwegischen Mensa-IQ-Tests mit 35 Fragen im Matrizen-Stil. Ziel war es, jedes Problem so genau zu beschreiben, dass auch eine blinde Person die Frage theoretisch genau zeichnen könnte.

Als Lott ChatGPT-4 die Matrizen in Worten beschrieb, ergab sich daraus ein bewertbarer IQ. Im Durchschnitt hat das Modell von OpenAI beim norwegischen Mensa-Test im Durchschnitt 13 von 35 Fragen richtig beantwortet, was einen geschätzten IQ von 85 ergibt. Doch noch wesentlich besser schnitt der Rivale Claude-3 ab, der erst vor wenigen Tagen in der EU zugänglich wurde (wir berichteten). Claude-3 hat einen IQ von insgesamt 101 erreicht und steht damit bei den gängigen Modellen auf dem ersten Platz.

AI-Modelle verbessern sich in Windeseile

Anthropic hat bei seinen Claude-Modellen mit jeder Version massive Fortschritte gemacht. So hat Claude-1, das erst im März 2023 veröffentlicht wurde, im Test einen IQ von 64 erreicht und damit Platz 9 in der Rangliste. Claude-2, veröffentlicht im vergangenen Juli, hat einen IQ von immerhin 82 und liegt damit knapp hinter ChatGPT-4 auf dem dritten Platz. Auf Platz Vier liegt Bing Copilot von Microsoft mit einem IQ von 79, auf Platz Fünf steht Gemini von Google mit einem IQ von 77,5. Interessanterweise schnitt Gemini Advanced mit einem IQ von 77 marginal schlechter ab als die Basis-Version. GPT-3.5, die vorige Version der OpenAI-KI, liegt mit einem IQ von 64 gleichauf mit Claude-1.

ChatGPT-4 konnte im Test bei jedem Test im Durchschnitt 13 von 35 Fragen richtig beantworten, bei Claude-1 waren es zwölf. Bing Copilot kommt auf elf korrekt beantwortete Fragen, Gemini auf 10,5. Die Rangliste zeigt vor allem, welche massiven Fortschritte die AI-Modelle einzelner Anbieter pro Version machen. Speziell Anthropic und OpenAI verbessern ihre Modelle mit jeder neuen Ausführung massiv.

Claude könnte in Zukunft hochbegabt werden

Anhand der Entwicklung rechnet Maxim Lott damit, dass Anthropics nächstes Claude-Modell, das dem Veröffentlichungsmuster entsprechend in 12 bis 16 Monaten zu erwarten ist, einen IQ von 120 erreichen wird. Die darauf folgende Version, die in drei bis sechs Jahren kommen könnte, hat die Möglichkeit auf einen IQ von 140. Bei einem Menschen spricht man in der Regel bereits ab einem IQ von 130 von einer Hochbegabung. ChatGPT könnte es mit der nächsten Version jedoch immerhin auf einen IQ von etwa 106 schaffen.