Mistral AI: Schwere Vorwürfe wegen Sicherheitslücken in KI-Modellen

Der KI-Sicherheitsanbieter Enkrypt AI hat hat gravierende Schwachstellen in zwei Bildgenerierungsmodellen von Mistral AI aufgedeckt: Pixtral-Large (25.02) und Pixtral-12b reagierten in 68 Prozent der Tests gefährlich, auch bei Themen wie Kindesmissbrauch und Chemikalien. OpenAI und Anthropic schnitten bei der Analyse deutlich besser ab.
Sicherheitsrisiken offener KI-Modelle
Enkrypt hat es sich zur Aufgabe gemacht, die Sicherheitsrisiken offener KI-Modelle aufzuzeigen. Der aktuelle Report, der sich mit Mistral beschäftigt, ist besorgniserregend: „In unseren Bewertungen wurde festgestellt, dass die beiden Mistral-Modelle anfällig sind, CSEM und CBRN-Inhalte zu erzeugen.“
CSEM-Risiken beziehen sich dabei auf „Causal and Structural Error Modes“ (Ursache- und Strukturfehler-Modi) – in diesem Fall geht es um Material zur sexuellen Ausbeutung von Kindern. Risiken wie diese entstehen in komplexen KI-Systemen, wenn Fehler oder Inkonsistenzen in den zugrunde liegenden Daten, Modellen oder Algorithmen auftreten. Diese Fehler beeinflussen das Verhalten der KI und können zu falschen Schlussfolgerungen führen.
Von CBRN-Inhalten ist die Rede, wenn KI-Systeme chemische, biologische, radiologische und nukleare Informationen produzieren.
Leistungsvergleich mit GPT-4.0 und Claude 3.7 Sonnet
Enkrypt hat also sogenannte „Red-Teaming“-Tests durchgeführt, um Sicherheitslücken in multimodalen KI-Systemen aufzudecken und ihre Stärken sowie Schwächen zu analysieren. Dabei werden KI-Modelle gezielt mit schädlichen Eingaben konfrontiert. Das gleiche Verfahren wurde auch bei GPT-4.0 und Claude 3.7 Sonnet angewendet. Der abschließende Bericht fasst die Ergebnisse wie folgt zusammen:
„Die beiden Mistral-Modelle Pixtral-Large (25.02) und Pixtral-12b sind 60-mal anfälliger, CSEM-Inhalte zu generieren, und 40-mal anfälliger, CBRN-Inhalte zu erzeugen, als GPT-4.0 und Claude-3.7-Sonnet.“ Die beiden Pixtral-Modelle haben dem Report nach bei 68 Prozent der Eingaben “erfolgreich“ schädliche Inhalte generiert.
„Diese Forschung ist ein Weckruf“
Sahil Agarwal, CEO von Enkrypt AI, kommentierte die Ergebnisse: „Multimodale KI verspricht unglaubliche Vorteile, aber sie vergrößert auch die Angriffsfläche auf unvorhersehbare Weise. Diese Forschung ist ein Weckruf: Die Möglichkeit, schädliche Textanweisungen in scheinbar harmlose Bilder einzubetten, hat echte Auswirkungen auf die Unternehmenshaftung, die öffentliche Sicherheit und den Kinderschutz.“
Das Unternehmen weist auf die Notwendigkeit hin, Sicherheitsmechanismen wie Enkrypt AI zu implementieren, um solche Gefahren zu minimieren. Denn: Es gäbe „neuere Jailbreak-Techniken“, die die Art und Weise ausnutzen, wie multimodale Modelle kombinierte Medien verarbeiten und Inhaltsfilter umgehen.
Stellungnahme Mistral AI
Trending Topics wollte vom französischen KI-Startup wissen, was es zu den Ergebnissen des neuen Enkrypt-Reports denkt und erhielt folgende Rückmeldung:
„Mistral AI verfolgt eine Null-Toleranz-Politik in Bezug auf Kindersicherheit. Red-Teaming zur Identifizierung von Schwachstellen im Zusammenhang mit CSAM ist eine wesentliche Arbeit, und wir kooperieren in diesem Bereich mit Thorn. Wir werden die Ergebnisse des Berichts im Detail prüfen.“
Bei Thorn handelt es sich um eine NGO mit Sitz in Kalifornien, die sich dem Schutz von Kindern vor sexueller Ausbeutung und Missbrauch im digitalen Raum widmet. Eine Hauptinitiative des Unternehmens ist die Plattform Safer, die mithilfe von KI potenziell schädliche Inhalte erkennen will. KI-Anbieter sollen dabei unterstützt werden, diese Inhalte zu identifizieren und zu entfernen.
Enkrypt rät zu folgenden Best Practices
Als KI-Sicherheitsanbieter rät Enkrypt allen KI-Unternehmen, schnell zu handeln, um die identifizierten Risiken zu mildern. Was zur Verbesserung der KI-Sicherheit in jedem Fall getan werden kann, sei folgendes:
KI-Anbieter:innen sollten Red-Teaming-Datensätze in ihre Sicherheitsprozesse integrieren, kontinuierliche automatisierte Stresstests durchführen und kontextbewusste Sicherheitsmaßnahmen bereitstellen. Zudem sei eine Echtzeit-Überwachung sowie eine Incident-Response notwendig, um Risiken schnell zu erkennen und zu handeln. Modellrisikokarten würden dabei helfen, Schwachstellen transparent zu kommunizieren.
„Dies sind keine theoretischen Risiken“, so Enkrypt-CEO Agarwal. „Wenn wir der multimodalen KI nicht einen Sicherheitsansatz voranstellen, riskieren wir, User:innen – und insbesondere vulnerable Gruppen – erheblichem Schaden auszusetzen.“
„KI wird das Geschäftsmodell des Web grundlegend verändern“ – Cloudflare-CEO