Speech-to-Text-Modelle

Mistral AI bringt „Voxtral Transcribe 2“ für leistungsstarke Echtzeit-Transkription

co-written by newsrooms.ai05. Februar 2026, 11:58

Startup Interviewer: Gib uns dein erstes AI Interview

Das französische KI-Startup Mistral AI veröffentlicht mit Voxtral Transcribe 2 zwei Speech-to-Text-Modelle der nächsten Generation und will mit State-of-the-art-Transkriptionsqualität und „ultraniedrigen“ Latenzzeiten punkten. Die Familie umfasst Voxtral Mini Transcribe V2 für Batch-Transkription und Voxtral Realtime für Live-Anwendungen.

Voxtral Realtime steht unter Apache 2.0-Lizenz als Open-Source-Modell zur Verfügung. Das Modell adressiert Anwendungen, bei denen Latenz entscheidend ist. Realtime nutzt eine neuartige Streaming-Architektur, die Audio transkribiert, während es eintrifft. Das Modell liefert laut Mistral Transkriptionen mit Verzögerung unter 200 Millisekunden und erschließe eine neue Klasse sprachbasierter Applikationen.

Die neue Sprachmodell-Familie unterstützt nativ 13 Sprachen, darunter Englisch, Chinesisch, Hindi, Spanisch, Arabisch, Französisch, Portugiesisch, Russisch, Deutsch, Japanisch, Koreanisch, Italienisch und Niederländisch.

Kampfansage an ChatGPT und Co

Mit Voxtral Mini Transcribe V2 launcht Mistral AI ein Transkriptionsmodell, das sich klar von etablierten Lösungen wie ChatGPT absetzen will. Das Modell soll Verbesserungen bei Transkriptions- und Sprechererkennungsqualität bieten und zuverlässig über verschiedene Sprachen und Anwendungsbereiche hinweg funktionieren. Mit einer Wortfehlerrate von rund vier Prozent im FLEURS-Benchmark erreicht Voxtral eine sehr hohe Genauigkeit – und das bei einem Preis von lediglich 0,003 US-Dollar pro Minute. Demnach gehört es aktuell zu den attraktivsten Angeboten am Markt.

Im direkten Vergleich soll Voxtral Mini Transcribe V2 Modelle wie GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal und Deepgram Nova in der Genauigkeit übertreffen. Gleichzeitig verarbeitet es laut Mistral Audiodaten etwa dreimal schneller als ElevenLabs Scribe v2 bei vergleichbarer Qualität und etwa einem Fünftel der Kosten.

Technische Ausrichtung und Enterprise-Tauglichkeit

Technisch ist Voxtral 2 klar als kosteneffiziente Enterprise-Lösung konzipiert. Das Context Biasing ist aktuell für Englisch optimiert – das Modell wird also auf bestimmte Wörter oder Phrasen trainiert, damit diese korrekt transkribiert werden. Zusätzlich zeigt das Modell eine geringe Anfälligkeit gegenüber Störgeräuschen und soll auch in akustisch schwierigen Umgebungen wie Fabrikhallen oder Call-Centern stabile Ergebnisse liefern.

Für Tests stellt das KI-Unternehmen im Mistral Studio einen Audio-Playground bereit. Dort können bis zu zehn Audiodateien gleichzeitig hochgeladen, die Sprechererkennung aktiviert oder deaktiviert, die Granularität der Zeitstempel gewählt und Context-Bias-Begriffe ergänzt werden. Unterstützt werden gängige Audioformate wie MP3, WAV, M4A, FLAC und OGG mit einer maximalen Dateigröße von einem Gigabyte pro Datei.

Datenschutz, Verfügbarkeit und Preise

Mistral AI will als europäisches Unternehmen mit Unabhängigkeit gegenüber US-Lösungen überzeugen. Beide neuen Voxtral-Modelle unterstützen DSGVO-konforme Deployments, beispielsweise On-Premise oder in privaten Cloud-Umgebungen. Voxtral Mini Transcribe V2 ist ab sofort über eine API zum Preis von 0,003 Dollar pro Minute verfügbar. Ergänzend dazu steht Voxtral Realtime für Echtzeitanwendungen zu 0,006 Dollar pro Minute bereit und ist zusätzlich als Open-Weights-Modell auf Hugging Face verfügbar.