Microsoft entwickelt KI-System für medizinische Diagnostik – viermal präziser als Ärzt:innen

Microsoft präsentiert neue Forschungsergebnisse zu seinem KI-System, das komplexe medizinische Diagnosen mit hoher Präzision stellen soll. Laut Microsoft testeten Forscher:innen das System anhand von Fallberichten aus dem New England Journal of Medicine (NEJM) – diese gelten als besonders anspruchsvoll. Das als Microsoft AI Diagnostic Orchestrator (MAI-DxO) bezeichnete KI-Tool diagnostizierte bis zu 85 Prozent der Fälle korrekt – eine mehr als viermal höhere Rate gegenüber der Testgruppe aus erfahrenen Ärzt:innen.
Um die Leistungsfähigkeit der KI zu bewerten, entwickelt Microsoft seit Ende 2024 das Sequential Diagnosis Benchmark (SD Bench). So wurden 304 medizinische Fälle schrittweise in diagnostische Szenarien umgewandelt. In diesem Prozess können sowohl KI-Modelle als auch Ärzt:innen Fragen stellen und Tests anordnen, um zu einer endgültigen Diagnose zu gelangen. Jede angeforderte Untersuchung verursacht dabei virtuelle Kosten, die reale Gesundheitsausgaben widerspiegeln. Dieses Verfahren soll die Bewertung der diagnostischen Genauigkeit sowie des Ressourceneinsatzes ermöglichen.
Überlegene Diagnosegenauigkeit bei geringeren Kosten
„Wir haben eine umfassende Reihe von generativen KI-Modellen anhand der 304 NEJM-Fälle bewertet. Zu den getesteten Grundmodellen gehörten GPT, Llama, Claude, Gemini, Grok und DeepSeek“, so Microsoft in ihrem Blogpost. Die Testergebnisse zeigen eine deutliche Überlegenheit des KI-Diagnosetools gegenüber menschlichen Ärzt:innen. Als beste Konfiguration erwies sich MAI-DxO in Verbindung mit OpenAI o3, die 85,5 Prozent der Fälle korrekt löste. Im Vergleich dazu erreichten 21 praktizierende Ärzt:innen aus den USA und Großbritannien mit fünf bis zwanzig Jahren Erfahrung eine durchschnittliche Genauigkeit von 20 Prozent. MAI-DxO soll darüber hinaus nicht nur genauer, sondern auch kosteneffizienter arbeiten als menschliche Mediziner:innen oder einzelne Basis-KI-Modelle.
Der Microsoft AI Diagnostic Orchestrator funktioniert wie ein virtuelles Ärzteteam mit unterschiedlichen diagnostischen Ansätzen, die zusammenarbeiten, um Fälle zu lösen. Microsoft betont, dass die Orchestrierung mehrerer Sprachmodelle entscheidend für die Bewältigung komplexer klinischer Arbeitsabläufe sei. Das System könne verschiedene Datenquellen effektiver integrieren und gleichzeitig Sicherheit, Transparenz und Anpassungsfähigkeit verbessern.
Potenzial für die Zukunft des Gesundheitswesens
Anhand der Forschungsergebnisse geht Microsoft von einem erheblichen Potenzial für die Umgestaltung des Gesundheitswesens aus. Die KI könnte Patient:innen befähigen, Routineaspekte der Versorgung selbst zu verwalten, und Gesundheitspersonal Entscheidungsunterstützung bei komplexen Fällen bieten. Zudem ist das Ziel, anfallende Gesundheitskosten zu reduzieren. Die Gesundheitsausgaben in den USA nähern sich 20 Prozent des BIPs an – und könnten diesen Schwelle laut Schätzungen des Centers for Medicare & Medicaid Services (CMS) bis zum Jahr 2032 überschreiten. Das soll MAI-DxO unterbinden.
Microsoft räumt ein, dass die Forschungsergebnisse Einschränkungen aufweisen: Obwohl MAI-DxO bei komplexen diagnostischen Herausforderungen hervorragende Ergebnisse erzielt, seien weitere Tests erforderlich, um seine Leistung bei häufigeren Alltagsfällen zu bewerten. Bevor eine breitere Einführung des Systems möglich ist, benötigt die KI-Technologie Nachweise aus realen klinischen Umgebungen sowie geeignete Governance- und Regulierungsrahmen, um Zuverlässigkeit, Sicherheit und Wirksamkeit zu gewährleisten. Microsoft will weiterhin mit führenden Gesundheitsorganisationen zusammenarbeiten, um die Diagnosen der KI erfolgreich zu testen und zu validieren.
HealthTech Kiin Bio sichert sich Millionenfinanzierung für KI-gestützte Arzneimittelforschung