Sora 2: OpenAI’s neues Video-Modell kann reale Personen reproduzieren

OpenAI hat heute Sora 2 veröffentlicht, die zweite Generation seines Video- und Audio-Generierungsmodells. Das System stellt eine Weiterentwicklung des im Februar 2024 erstmals vorgestellten Sora-Modells dar und soll verbesserte physikalische Genauigkeit, Realismus und Kontrolle bieten.
Mit der zweiten Version von Sora kontert OpenAI in erster Linie Google, das mit dem Video/Audio-Modell Veo 3 vor kurze einen Hit landete. Auch Video-Modell-Startups wie Black Forest Labs und Runway werden wohl ziemlich genau darauf schauen, was Sam Altmans Unternehmen da nun auf den Markt wirft.
Technische Fähigkeiten
Laut OpenAI kann Sora 2 komplexe Bewegungsabläufe wie olympische Gymnastikübungen, Rückwärtssaltos auf Paddleboards oder dreifache Axel-Sprünge mit realistischer Physik darstellen. Ein wesentlicher Unterschied zu früheren Videogenerierungsmodellen besteht darin, dass das System physikalische Gesetze besser berücksichtigt. Während frühere Modelle Objekte spontan verformten oder teleportierten, um eine Textanweisung zu erfüllen, soll Sora 2 realistische Misserfolge modellieren können – beispielsweise prallt ein Basketball vom Brett ab, anstatt spontan im Korb zu landen.
Das Modell verfügt über erweiterte Steuerungsmöglichkeiten und kann komplexe Anweisungen über mehrere Einstellungen hinweg befolgen, wobei der Weltzustand konsistent erhalten bleibt. Es unterstützt verschiedene Stile, darunter realistische, filmische und Anime-Darstellungen.
Als integriertes Video-Audio-System generiert Sora 2 Hintergrundgeräusche, Sprache und Soundeffekte. Eine neue „Cameo“-Funktion ermöglicht es, reale Personen, Tiere oder Objekte nach einer kurzen Videoaufnahme in generierte Szenen einzufügen, wobei Aussehen und Stimme reproduziert werden. So wurde etwa OpenAI-CEO Sam Altman als Showcase für ein Video reproduziert.
Limitationen
OpenAI räumt ein, dass das Modell „weit von perfekt entfernt ist und viele Fehler macht“. Die Veröffentlichung wird als Zwischenschritt auf dem Weg zu umfassenden Weltsimulatoren verstanden.
Verfügbarkeit und Zugang
Sora 2 wird über eine neue iOS-App ausgerollt, die zunächst in den USA und Kanada verfügbar ist. Der Zugang erfolgt schrittweise über ein Einladungssystem. Parallel ist das Modell über sora.com zugänglich. Die Nutzung ist zunächst kostenlos mit großzügigen Limits, die jedoch von verfügbaren Rechenressourcen abhängen. ChatGPT Pro-Nutzer erhalten Zugang zu einem experimentellen „Sora 2 Pro“-Modell. Eine API-Veröffentlichung ist geplant.
Sicherheitsmaßnahmen
OpenAI hat verschiedene Sicherheitsmechanismen implementiert:
- Kontrolle über Bildnisse: Nutzer entscheiden selbst, wer ihre Cameo-Aufnahmen verwenden darf und können den Zugang jederzeit widerrufen oder Videos entfernen
- Schutz von Jugendlichen: Standardmäßige Limits für täglich sichtbare Generierungen und strengere Berechtigungen für Cameos
- Elternkontrollen: Über ChatGPT können Eltern Scroll-Limits setzen, Algorithmus-Personalisierung deaktivieren und Direktnachrichten-Einstellungen verwalten
- Feed-Algorithmus: Sprachgesteuerte Empfehlungsalgorithmen, die nicht auf Verweildauer optimiert sind, sondern auf kreative Nutzung
- Moderation: Skalierung von menschlichen Moderationsteams zur Überprüfung problematischer Inhalte
Das Unternehmen plant vorerst keine werbebasierte Monetarisierung. Als einziges Geschäftsmodell ist vorgesehen, Nutzern bei hoher Nachfrage die Option zu bieten, für zusätzliche Generierungen zu bezahlen.