Das Startup Hume AI will mit Octave ein neuartiges Text-to-Speech-System geschaffen haben. Dabei sollen KI-generierte Stimmen lebensechte, emotional nuancierte Sprache für Film, Hörbücher, Videospiele und Co erzeugen. Die Technologie zielt darauf ab, Audio-Dateien für verschiedene Medienformate zu produzieren.

Sprachsynthese mit “emotionaler Tiefe“

Vor zwei Jahren ging Hume AI aus dem Stealth-Mode hervor. Nach insgesamt rund 68 Millionen an Finanzierung stellt das Unternehmen nun „Octave“ vor. Das große Sprachmodell kombiniere umfangreiche Text-, Sprach- und Emotionsdaten. Nicht nur einzelne Wörter werden dabei analysiert, sondern, der Kontext ganzer Textpassagen. Dies ermögliche eine präzise Anpassung von Tonfall, Rhythmus und Betonung. Benutzer:innen sollen die emotionale Ausdrucksweise der generierten Stimmen gezielt steuern können, indem sie einfache Textanweisungen wie „fröhlicher“, „sarkastischer“ oder „leicht frustriert, aber mit Humor“ eingeben.

Technologische Grundlagen

Die Entwicklung von Octave basiert laut Unternehmensangaben auf Milliarden Stunden öffentlicher Sprachdaten sowie firmeneigenen Aufzeichnungen. Diese umfassen laut Hume natürliche Sprachaufnahmen von Menschen in verschiedenen Kommunikationssituationen.

Die Technologie richte sich primär an Content-Produzent:innen und eigne sich für die Erstellung von Hörbüchern, Podcasts und Sprachaufnahmen für Videospiele. Aktuell unterstütze das System Englisch und Spanisch, weitere Sprachen sollen folgen.

Sicherheit und ethische Aspekte

Hume AI gibt an, dabei zu sein, eine Voice-Cloning-Funktion zu entwickeln, die Stimmen mit nur fünf Sekunden Audiomaterial reproduzieren kann. Das Unternehmen will dabei Schutzmaßnahmen gegen Missbrauch implementieren, beispielsweise Einschränkungen bei der Erstellung von Kinderstimmen oder der Imitation realer Personen. Zur Qualitätssicherung hätte man „Expressive TTS Arena“ eingeführt, eine Benchmark-Plattform für die Bewertung von Sprachmodellen.

Marktposition und Zukunftsperspektiven

In einer selbst durchgeführten Blindstudie mit 180 Tester:innen soll Octave in den Kategorien Audioqualität, Natürlichkeit und emotionale Präzision besser abgeschnitten haben als der größte Konkurrent ElevenLabs. Hume AI positioniert sich dabei nicht nur technologisch, sondern auch preislich vorteilhaft im Markt. Das große Ziel des New Yorker Startups: Die Produktion von Audio-Inhalten grundlegend zu verändern und neue Standards in der KI-gestützten Sprachsynthese zu setzen.