Künstliche Intelligenz

Nvidia: Neues AI-Modell ist „Schweizer Taschenmesser für Sound“

Georg Haas26. November 2024, 10:32

Nvidia hat ein neues AI-Modell entwickelt, das Text und Audio als Input verwendet und jede beliebige Kombination von Musik, Stimmen und Geräuschen erzeugen können soll. Das Team des US-Konzerns bezeichnet das Modell mit dem Namen Fugatto als „Schweizer Taschenmesser für Sound“. Fugatto (kurz für Foundational Generative Audio Transformer Opus 1) erzeugt oder verändert eine beliebige Mischung aus Musik, Stimmen und Geräuschen, die User mit einer beliebigen Kombination aus Text und Audiodateien beschreiben können.

Impact AI: Neuer Chatbot soll Weltraumforschung greifbarer machen

Modell soll Klänge wie Menschen verstehen und erzeugen

Laut Nvidia kann das Modell beispielsweise ein Musikstück auf der Grundlage einer Textaufforderung erstellen Es kann Instrumente aus einem bestehenden Lied entfernen oder hinzufügen, den Akzent oder die Emotion in einer Stimme verändern – und sogar Menschen Klänge erzeugen lassen, die sie noch nie zuvor gehört haben. „Wir wollten ein Modell entwickeln, das Klänge wie Menschen versteht und erzeugt“, sagt Rafael Valle, Manager für angewandte Audioforschung bei Nvidia.

Fugatto basiert auf der früheren Arbeit von Nvidia in Bereichen wie Sprachmodellierung, Audio-Vocoding und Audioverstehen. Trainiert habe man das Modell ausschließlich mit Material unter Open-Source-Lizenzen. Der Konzern hat es mit seinen eigenen Chips trainiert. Eine der schwierigsten Aufgaben war laut dem Konzern die Erstellung eines gemischten Datensatzes, der Millionen von Audio-Samples für das Training enthält. Das Team verwendete bestehende Datensätze, um neue Beziehungen zwischen den Daten aufzudecken. Die gesamte Arbeit erstreckte sich über mehr als ein Jahr.

DeepL führt Echtzeit-Sprachübersetzung für Meetings und Telefonate ein

Nvidia verspricht verschiedene Anwendungsfälle

Es handle sich bei Fugatto um das erste grundlegende generative KI-Modell, das emergente Eigenschaften hat. Dabei handelt es sich um Fähigkeiten, die sich aus der Interaktion seiner verschiedenen trainierten Fähigkeiten ergeben. Musikproduzent:innen könnten Fugatto zum Beispiel nutzen, um schnell eine Idee für einen Song zu entwickeln oder zu bearbeiten und dabei verschiedene Stile, Stimmen und Instrumente auszuprobieren. Sie könnten auch Effekte hinzufügen und die allgemeine Audioqualität eines bestehenden Tracks verbessern.

Eine Werbeagentur könne Fugatto einsetzen, um eine bestehende Kampagne schnell auf verschiedene Regionen oder Situationen abzustimmen, indem sie unterschiedliche Akzente und Emotionen auf Voiceovers anwendet. Sprachlerntools sollen sich so personalisieren lassen, dass sie jede beliebige Stimme verwenden.

Nvidia zufolge ist das Modell auch in der Lage, Aufgaben zu lösen, für die es nicht vortrainiert ist, wie z. B. die Erzeugung einer hochwertigen Gesangsstimme aus einer Texteingabe. Dank einer Technik namens ComposableART soll Fugatto Anweisungen kombinieren können, die es während des Trainings nur getrennt gesehen hat. Ob und wann Fugatto für User zur Verfügung steht, hat Nividia zu diesem Zeitpunkt noch nicht öffentlich gemacht.