Speech-to-Text-Modelle

Mistral AI bringt „Voxtral Transcribe 2“ für leistungsstarke Echtzeit-Transkription

Das Team von Mistral. © Mistral AI
Das Team von Mistral. © Mistral AI
Startup Interviewer: Gib uns dein erstes AI Interview Startup Interviewer: Gib uns dein erstes AI Interview

Das französische KI-Startup Mistral AI veröffentlicht mit Voxtral Transcribe 2 zwei Speech-to-Text-Modelle der nächsten Generation und will mit State-of-the-art-Transkriptionsqualität und „ultraniedrigen“ Latenzzeiten punkten. Die Familie umfasst Voxtral Mini Transcribe V2 für Batch-Transkription und Voxtral Realtime für Live-Anwendungen.

Voxtral Realtime steht unter Apache 2.0-Lizenz als Open-Source-Modell zur Verfügung. Das Modell adressiert Anwendungen, bei denen Latenz entscheidend ist. Realtime nutzt eine neuartige Streaming-Architektur, die Audio transkribiert, während es eintrifft. Das Modell liefert laut Mistral Transkriptionen mit Verzögerung unter 200 Millisekunden und erschließe eine neue Klasse sprachbasierter Applikationen.

Die neue Sprachmodell-Familie unterstützt nativ 13 Sprachen, darunter Englisch, Chinesisch, Hindi, Spanisch, Arabisch, Französisch, Portugiesisch, Russisch, Deutsch, Japanisch, Koreanisch, Italienisch und Niederländisch.

Kampfansage an ChatGPT und Co

Mit Voxtral Mini Transcribe V2 launcht Mistral AI ein Transkriptionsmodell, das sich klar von etablierten Lösungen wie ChatGPT absetzen will. Das Modell soll Verbesserungen bei Transkriptions- und Sprechererkennungsqualität bieten und zuverlässig über verschiedene Sprachen und Anwendungsbereiche hinweg funktionieren. Mit einer Wortfehlerrate von rund vier Prozent im FLEURS-Benchmark erreicht Voxtral eine sehr hohe Genauigkeit – und das bei einem Preis von lediglich 0,003 US-Dollar pro Minute. Demnach gehört es aktuell zu den attraktivsten Angeboten am Markt.

Im direkten Vergleich soll Voxtral Mini Transcribe V2 Modelle wie GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal und Deepgram Nova in der Genauigkeit übertreffen. Gleichzeitig verarbeitet es laut Mistral Audiodaten etwa dreimal schneller als ElevenLabs Scribe v2 bei vergleichbarer Qualität und etwa einem Fünftel der Kosten.

Technische Ausrichtung und Enterprise-Tauglichkeit

Technisch ist Voxtral 2 klar als kosteneffiziente Enterprise-Lösung konzipiert. Das Context Biasing ist aktuell für Englisch optimiert – das Modell wird also auf bestimmte Wörter oder Phrasen trainiert, damit diese korrekt transkribiert werden. Zusätzlich zeigt das Modell eine geringe Anfälligkeit gegenüber Störgeräuschen und soll auch in akustisch schwierigen Umgebungen wie Fabrikhallen oder Call-Centern stabile Ergebnisse liefern.

Für Tests stellt das KI-Unternehmen im Mistral Studio einen Audio-Playground bereit. Dort können bis zu zehn Audiodateien gleichzeitig hochgeladen, die Sprechererkennung aktiviert oder deaktiviert, die Granularität der Zeitstempel gewählt und Context-Bias-Begriffe ergänzt werden. Unterstützt werden gängige Audioformate wie MP3, WAV, M4A, FLAC und OGG mit einer maximalen Dateigröße von einem Gigabyte pro Datei.

Datenschutz, Verfügbarkeit und Preise

Mistral AI will als europäisches Unternehmen mit Unabhängigkeit gegenüber US-Lösungen überzeugen. Beide neuen Voxtral-Modelle unterstützen DSGVO-konforme Deployments, beispielsweise On-Premise oder in privaten Cloud-Umgebungen. Voxtral Mini Transcribe V2 ist ab sofort über eine API zum Preis von 0,003 Dollar pro Minute verfügbar. Ergänzend dazu steht Voxtral Realtime für Echtzeitanwendungen zu 0,006 Dollar pro Minute bereit und ist zusätzlich als Open-Weights-Modell auf Hugging Face verfügbar.

Rank My Startup: Erobere die Liga der Top Founder!
Werbung
Werbung

Specials unserer Partner

Die besten Artikel in unserem Netzwerk

Deep Dives

RankMyStartup.com

Steig' in die Liga der Top Founder auf!
© Wiener Börse

IPO Spotlight

powered by Wiener Börse
#glaubandich CHALLENGE Hochformat.

#glaubandich CHALLENGE 2026

Österreichs größter Startup-Wettbewerb - Top-Investoren mit an Bord

AI Talk

Der führende KI Podcast mit Clemens Wasner & Jakob Steinschaden

Future{hacks}

Zwischen Hype und Realität

Trending Topics Tech Talk

Der Podcast mit smarten Köpfen für smarte Köpfe

Weiterlesen