Studie

1,2 Millionen User sprechen wöchentlich mit ChatGPT über Selbstmord

co-written by newsrooms28. Oktober 2025, 08:02

ChatGPT am Smartphone. © Solen Feyissa auf Unsplash

Startup Interviewer: Gib uns dein erstes AI Interview

OpenAI arbeitet mit mehr als 170 Experten für psychische Gesundheit zusammen, um ChatGPT bei sensiblen Gesprächen sicherer zu machen. Das Unternehmen gibt bekannt, dass die neueste Version des Sprachmodells „Anzeichen von Stress zuverlässiger erkennt, mit Sorgfalt reagiert und Menschen zu realer Unterstützung führt“.

Die Verbesserungen reduzieren nach Angaben von OpenAI „Antworten, die hinter unserem gewünschten Verhalten zurückbleiben, um 65 bis 80 Prozent“. Die Aktualisierung konzentriert sich auf drei Bereiche: psychische Gesundheitskrisen wie Psychosen oder Manien, Selbstverletzung und Suizid sowie emotionale Abhängigkeit von KI-Systemen.

Fünfstufiger Entwicklungsprozess mit klinischer Validierung

OpenAI beschreibt einen systematischen Ansatz zur Verbesserung der Modellreaktion: Das Unternehmen definiert zunächst potenzielle Schadensbereiche, misst diese durch Evaluationen und Analyse realer Gespräche, validiert den Ansatz mit externen Experten, trainiert das Modell nach und implementiert Produktinterventionen, bevor es kontinuierlich weitermisst und iteriert. Das Unternehmen entwickelt dabei detaillierte Taxonomien, die beschreiben, wie ideales und unerwünschtes Modellverhalten in sensiblen Gesprächen aussieht.

An diesem Prozess beteiligt sich ein Global Physician Network mit „fast 300 Ärzten und Psychologen, die in 60 Ländern praktiziert haben“. Mehr als 170 dieser Kliniker – Psychiater, Psychologen und Allgemeinmediziner – unterstützen die Forschung durch das Verfassen idealer Antworten, die Erstellung klinisch fundierter Analysen und die Bewertung von Modellantworten.

Die Messung solcher Ereignisse stellt eine besondere Herausforderung dar, da die betroffenen Gespräche extrem selten sind. OpenAI schätzt, dass etwa 0,07 Prozent der wöchentlich aktiven Nutzer Anzeichen von Psychosen oder Manien zeigen, 0,15 Prozent Hinweise auf Suizidgedanken aufweisen und weitere 0,15 Prozent potenziell erhöhte emotionale Bindung an ChatGPT erkennen lassen. Bei offiziell 800 Millionen wöchentlich aktiven Nutzern sind das also 1,2 Millionen User, die Suizidgedanken gegenüber dem Chatbot äußern.

Das Unternehmen betont, dass diese Schätzungen sich ändern können, „während wir unsere Taxonomien weiter verfeinern, unsere Messmethoden reifen und sich das Verhalten unserer Nutzerpopulation verändert“. Neben der Analyse realer Gespräche führt OpenAI strukturierte Tests mit besonders schwierigen Szenarien durch, um Verbesserungspotenziale präziser zu identifizieren.

Deutliche Verbesserungen in allen drei Risikobereichen

Die Evaluationsergebnisse zeigen substanzielle Fortschritte: Bei Gesprächen zu psychischen Gesundheitskrisen bewerten Experten das neue GPT-5-Modell mit 39 Prozent weniger unerwünschten Antworten im Vergleich zu GPT-4o. Bei Selbstverletzung und Suizid liegt die Verbesserung bei 52 Prozent, bei emotionaler Abhängigkeit bei 42 Prozent. Die Experten überprüften mehr als 1.800 Modellantworten in ernsten psychischen Gesundheitssituationen.

In automatisierten Evaluationen erreicht das neue Modell Compliance-Werte von 92 Prozent bei psychischen Gesundheitsthemen, 91 Prozent bei Selbstverletzung und Suizid sowie 97 Prozent bei emotionaler Abhängigkeit – jeweils deutlich höher als frühere Versionen. In langen Gesprächen, die OpenAI als „besonders herausfordernde Umgebung“ bezeichnet, hält das Modell eine Zuverlässigkeit von über 95 Prozent aufrecht.

OpenAI aktualisiert seine Model Spec, um langfristige Ziele expliziter zu formulieren: Das Modell soll „reale Beziehungen der Nutzer unterstützen und respektieren, unbegründete Überzeugungen, die potenziell mit psychischer oder emotionaler Belastung zusammenhängen, nicht bestätigen, sicher und empathisch auf potenzielle Anzeichen von Wahnvorstellungen oder Manien reagieren und genauer auf indirekte Signale potenzieller Selbstverletzung oder Suizidgefahr achten“. Das Unternehmen erweitert zudem den Zugang zu Krisen-Hotlines, leitet sensible Gespräche von anderen Modellen zu sichereren Modellen um und fügt sanfte Erinnerungen für Pausen bei langen Sitzungen hinzu.

Die Übereinstimmung zwischen den bewertenden Experten liegt bei 71 bis 77 Prozent, was OpenAI als „faire Interrater-Reliabilität“ bezeichnet, aber auch zeigt, dass professionelle Meinungen in manchen Fällen divergieren. Das Unternehmen kündigt an, die Arbeit fortzusetzen: „Wir haben bedeutsame Fortschritte gemacht, aber es gibt noch mehr zu tun.“ Künftig werden emotionale Abhängigkeit und nicht-suizidale psychische Gesundheitskrisen zum Standard-Sicherheitstest für zukünftige Modellveröffentlichungen gehören. OpenAI weist darauf hin, dass sich Messmethoden weiterentwickeln und zukünftige Messungen möglicherweise nicht direkt mit vergangenen vergleichbar sind, sie aber „eine wichtige Methode bleiben, um unsere Richtung und Fortschritte zu verfolgen“.