Künstliche Intelligenz

DeepL bringt „Voice-to-Voice“-Übersetzungssoftware

Georg Haas16. April 2026, 11:22

DeepL-Gründer und CEO Jaroslaw Kutylowski © DeepL

Das deutsche AI-Übersetzungs-Unicorn DeepL hat laut TechCrunch eine „Voice-to-Voice“-Übersetzungssuite veröffentlicht, die die Stimmen von Nutzer:innen direkt in andere Sprachen übersetzen soll. Die Software soll beispielsweise bei Meetings oder Telefonaten zum Einsatz kommen. Das Scale-up veröffentlicht zudem eine API, mit der externe Entwickler und Unternehmen auf der DeepL-Technologie aufbauen können, um maßgeschneiderte Anwendungsfälle wie Callcenter zu realisieren.

„Große Fortschritte“ bei Übersetzung

„Nachdem wir uns so viele Jahre mit Textübersetzungen beschäftigt haben, war die Sprachübersetzung für uns ein logischer nächster Schritt“, sagte DeepL-CEO Jarek Kutylowski in einem Interview mit TechCrunch. „Wir haben bei der Text- und Dokumentübersetzung große Fortschritte gemacht. Aber wir waren der Meinung, dass es kein wirklich gutes Produkt für die Echtzeit-Sprachübersetzung gab.“

Kutylowski zufolge lagen die Herausforderungen bei der Entwicklung eines Echtzeit-Übersetzungsprodukts vor allem darin, ein Gleichgewicht zwischen der Reduzierung der Latenz – also der Verzögerung zwischen dem Sprechen und der Wiedergabe des übersetzten Tons – und der Gewährleistung präziser Ergebnisse zu finden.

DeepL veröffentlicht Add-ons für Plattformen wie Zoom und Microsoft Teams, bei denen Zuhörer:innen die Echtzeitübersetzung hören können, während andere in ihrer Muttersprache sprechen. Außerdem können sie den in Echtzeit übersetzten Text auf dem Bildschirm verfolgen. Dieses Programm befindet sich derzeit in der Early-Access-Phase.

DeepL wandelt übersetzte Texte wieder in Sprache um

Die Voice-to-Voice-Technologie soll auch benutzerdefinierte Vokabeln erlernen und sich daran anpassen können. Dazu gehören beispielsweise branchenspezifische Begriffe sowie Firmen- und Personennamen.

Das aktuelle System wandelt die Sprache zunächst in Text um, wendet die Übersetzung an und wandelt diesen dann wieder in Sprache zurück. DeepL ist der Ansicht, dass es aufgrund seiner jahrelangen Erfahrung in der Textübersetzung einen Vorsprung bei der Übersetzungsqualität hat. Für die Zukunft will das Unternehmen ein durchgängiges Sprachübersetzungsmodell entwickeln, das den Text-Schritt vollständig überspringt.

OpenAI kontert Claude Mythos mit GPT-5.4-Cyber, gibt breiteren Zugang als Anthropic

Harter Wettkampf um Übersetzungs-AI

DeepL steht im Wettbewerb mit mehreren gut finanzierten Startups, die in angrenzenden Bereichen tätig sind. Sanas, das im vergangenen Jahr 65 Millionen US-Dollar von Quadrille Capital und Teleperformance eingesammelt hat, nutzt KI, um den Akzent von Sprecher:innen in Echtzeit zu modifizieren.

Camb.AI aus Dubai konzentriert sich auf Sprachsynthese und -übersetzung für Medien- und Unterhaltungsunternehmen sowie Amazon Web Services und unterstützt diese dabei, Videoinhalte in großem Umfang zu synchronisieren und zu lokalisieren.

Palabra, das von der Firma Seven Seven Six des Reddit-Mitbegründers Alexis Ohanian unterstützt wird, entwickelt eine Echtzeit-Sprachübersetzungs-Engine, die sowohl die Bedeutung als auch die ursprüngliche Stimme der Sprecher:innen bewahren soll, und tritt damit in direkteren Wettbewerb mit dem, was DeepL derzeit entwickelt.