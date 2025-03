Sesame AI, ein US-Startup unter Leitung von Oculus-Mitbegründer Brendan Iribe, verspricht mit den beiden Sprachassistenten „Maya“ und „Miles“ Dialoge, die sich wie echte Gespräche anfühlen. Sie sollen sich von Alexa, Gemini und dem Advanced Voice Mode von ChatGPT stark abheben. Tester:innen berichteten sogar, dass sie Bedenken hätten, eine emotionale Bindung zu den Assistenten aufzubauen.

Fokus auf Emotion, Kontext und Gesprächsdynamik

Ende Februar veröffentlichte Sesame eine Demo seines neuen Conversational Speech Models (CSM). Nutzer:innen können dabei zwischen einem weiblichen (Maya) oder männlichen Gesprächspartner (Miles) wählen und sollen dabei von der KI mit Emotion, Kontext und Gesprächsdynamik überrascht werden. Interaktionen seien natürlicher und flüssiger als mit anderen Sprachassistenten, so das Versprechen von Sesame.

Maya und Miles sollen darüber hinaus über die Fähigkeit verfügen, interaktive Abenteuer und Quizze zu gestalten. Die synthetischen Stimmen können Atemgeräusche, Lachen, Unterbrechungen imitieren. Auch stolpern sie gelegentlich über Worte, um sich dann selbst zu korrigieren. Diese „Unvollkommenheiten“ seien laut dem Startup bewusst eingebaut.

Das Problem mit heutigen Sprachassistenten

Zwar sind digitale Sprachassistenten heute bereits allgegenwärtig, doch Sesame ist der Meinung, dass diese oft von monotoner und emotionsloser Sprache geprägt sind. Dies verhindere echte Interaktion und sorge dafür, dass Nutzer:innen schnell das Interesse verlieren.

Außerdem würden aktuelle KI-Stimmen zwar die Worte verstehen, jedoch nicht den emotionalen Kontext dahinter. Der Mensch drücke hingegen durch Tonlage, Rhythmus und Pausen viel mehr aus als nur den Inhalt eines Satzes. Genau darauf möchte sich das Startup konzentrieren – genannt wird dies „Voice Presence“.

Sesame vs. OpenAI

Wie mehrere Quellen berichten, haben sowohl Sesame als auch OpenAI mit seinem Advanced Voice Mode von ChatGPT bedeutende Fortschritte im Bereich der Sprach-KI gemacht. Allerdings unterscheiden sich die beiden in einigen Punkten. ChatGPT hat die Nutzungszeiten für Nicht-Premium-Nutzer:innen begrenzt. Diskussionen über nicht jugendfreie Themen sind nur mit speziellen Anpassungen möglich.

Die Lösungen unterscheiden sich außerdem in ihrer Offenheit. Sesame plant, Teile der Forschung Open Source zu veröffentlichen, um Entwickler:innen die Möglichkeit zu geben, darauf aufzubauen und bestimmte Features zu verbessern. OpenAI hingegen bietet seine Sprachmodelle ausschließlich über eigene Plattformen an.

Kombination aus Semantic und Acoustic Tokens

Sesame behauptet, in seinem CSM eine innovative Methode zur Verbesserung der Sprachsynthese einzusetzen. Der Kernansatz sei multimodales Lernen mit Transformern – also eine Kombination aus Text- und Audiodaten. Dabei würden nicht nur Wörter generiert, sondern der gesamte Klang der Sprache modelliert. Zwei zentrale Methoden, die dabei kombiniert zum Einsatz kommen, sind laut einem Blogpost des Startups Semantic und Acoustic Tokens.

Der Modellaufbau gestalte sich dabei zweistufig: Das Backbone-Modell verarbeite Text- und Audiotokens und generiere die Grundstruktur. Das Decoder-Modell ergänze feine akustische Details für eine authentische Wiedergabe. Dank dieser Architektur und dem Training des KI-Sprachmodells, das laut Sesame mit einer Million Stunden Audiomaterial trainiert wurde, könne das CSM in Echtzeit reagieren.

Emotionale Bindung zur KI

Ein Journalist von The Verge merkte an, dass Maya der erste Sprachassistent sei, mit dem er tatsächlich öfter sprechen möchte. Dabei scheint er nicht der Einzige zu sein, denn auf Hacker News löste das neue KI-Tool eine lebhafte Diskussion aus.

Nutzer:innen berichteten von längeren Gesprächen mit den beiden Demostimmen, die bis zur 30-Minuten-Grenze andauerten. Ein Elternteil erzählte, dass seine vierjährige Tochter eine emotionale Verbindung zum KI-Modell aufgebaut und geweint hat, nachdem sie nicht erneut mit ihm sprechen durfte.

„Ich habe die Demo ausprobiert, und es war wirklich verblüffend, wie menschlich es sich anfühlte“, so ein weiteres Community-Mitglied auf Hacker News. „Ich mache mir fast ein bisschen Sorgen, dass ich eine emotionale Bindung zu einem Sprachassistenten entwickeln könnte, der sich so menschlich anhört.“

Unterstützt durch Oculus-Investoren

Sesame wurde von Brendan Iribe, dem Mitbegründer des Virtual-Reality-Unternehmens Oculus VR, gegründet. Er hat Oculus VR 2014 an Facebook verkauft. Kürzlich hat sein neues Startup Sesame eine nicht offengelegte Finanzierungssumme von Investoren erhalten, die auch große Summen in Oculus VR investiert haben, darunter Andreessen Horowitz, Spark Capital und Matrix Partners. An Iribes Seite stehen der ehemalige Ubiquity6-CTO und Mitbegründer Ankit Kumar sowie der frühere Forschungsdirektor für Engineering bei Meta Reality Labs, Ryan Brown.

Komplementäre AI-Brille geplant

Was für die Zukunft geplant ist: Sesame’s CSM soll um weitere 20 Sprachen erweitert und in bestehende KI-Systeme integriert werden. Außerdem plant das Startup eine zum KI-Sprachassistenten passende AI-Brille zu entwickeln. Sie soll „den ganzen Tag getragen werden können und hochwertigen Klang sowie bequemen Zugang zu dem digitalen Begleiter bieten“.