Das so etwas möglich ist, hätte vor einem Jahr, als man nicht einmal noch GPT-4 veröffentlicht war und man sich über die Halluzinationen von ChatGPT aufregte, wohl niemand gedacht. Und doch ist es bereits da: Sora, ein AI-Modell zur Generierung von bis zu 60 Sekunden, sehr realen Videos, verblüfft, ja verängstigt derzeit gesamte Branchen. Das Text-to-Video-Modell ist deutlich besser als alles, was bisher sonst veröffentlicht wurde – es stellt unter anderem das AI-Video-Startup Runway oder Imagen klar in den Schatten.

Noch kann man Sora-Clips nur auf Social-Media-Kanälen und Webseiten von OpenAI begutachten; das AI-Modell bringt (noch) so viele Fehler und Ungewissheiten mit sich, dass das berühmteste AI-Startup der Welt es vorerst nur Tester:innen aus den Bereichen Security („Red Teaming“), Visual Arts, Design und Film zur Verfügung stellt. Denn noch wäre unklar, welchen Unfug unbedachter Einsatz mit sich bringen würde – gerade im Superwahljahr 2024.

Was also steckt genau hinter Sora, wie funktioniert es, was kann es, und was kann es nicht? Ein Forscher:innen-Team der Lehigh University in Pennsylvania und von Microsoft Research haben Sora in einem neuen Paper im Detail zerlegt. Hier Antworten auf die wichtigsten Fragen:

Wofür steht Sora?

Sora bedeutet „Himmel“ auf Japanisch. Die Entwickler:innen hätten den Namen gewählt, weil es „die Vorstellung von grenzenlosem kreativem Potenzial heraufbeschwört“, heißt es seitens OpenAI.

Wie wird ein Video generiert?

Sora kombiniert die so genannten Transformer, die auch bei den GPTs zum Einsatz kommen, mit einem Diffusion-Modell zu einem so genannten Diffusion-Transformer-Modell. „Das Modell beginnt mit einem Bild, das mit visuellem Rauschen gefüllt ist, entrauscht das Bild iterativ und fügt spezifische Details entsprechend der vorgegebenen Textaufforderung ein. Das generierte Video entsteht im Wesentlichen durch einen mehrstufigen Verfeinerungsprozess, bei dem das Video mit jedem Schritt mehr auf den gewünschten Inhalt und die gewünschte Qualität abgestimmt wird“, erläutern die Forscher:innen im oben genannten Forschungsbericht.

Welche Videoinhalte schafft Sora?

Die einminütigen Videos werden in einer Bildauflösung von maximal 1920x1080p bzw. 1080x1920p (und alles dazwischen), gemeinhin als Full HD bekannt, berechnet. Inhaltlich funktionieren bereits folgende Dinge:

Multiple Charaktere

Spezifische Typen von Bewegung

Detaillierte Vorder- und Hintergründe

Richtige Darstellung von Objekten in der physischen Welt

Fortsetzung von bestehenden Videos

Gaming-Umgebungen

Worauf baut Sora auf?

Sora ist eigentlich eine Adaption des Text-to-Image-Modells Dall-E 3 von OpenAI, das ebenfalls auf ein Diffusions-Modell setzt. Dieses ist darauf trainiert, aus einem Wirrwarr von zufälligen Pixeln ein Bild zu machen. Sora hebt das Konzept von einem Statischen Bild auf die Videoebene. Während GPT-4 ein Large Language Model (LLM) ist, wird Sora als Large Vision Model (LVM) bezeichnet. Es ist also nicht GPT-5, sondern ein eigenständiges AI-Modell. Allerdings wird GPT-4 eingesetzt, um die Prompts des Users zu erfassen und zu interpretieren.

Welche Branchen können disruptiert werden?

Dass alles, was mit Videos und Filmen durch AI-Videos disruptiert werden kann, ist naheliegend. Gerade bei kurzen Clips etwa in der Werbung könnten Unternehmen künftig zu Sora und verwandten Tools greifen, anstatt die Videos teuer mit Hilfe Kamweras in echten Umgebungen zu erzeugen. Darüber hinaus gibt es aber eine Reihe weiterer Einsatzgebiete, die nicht ganz so naheliegend sind:

Lehrkräfte könnten den Unterrichtsplan von Text auf Videos umstellen, um die um die Aufmerksamkeit der Schüler zurück zu erlangen und komplexe Dinge einfacher mit Hilfe von Videos darzustellen. Gaming: Sora könnte künftig dazu eingesetzt werden, um 3D-Welten für Computer-Games zu entwerfen

Abgesehen von der Erzeugung von Videos können Diffusionsmodelle wie Sora wegen ihrem Verständnis und komplexer Videosequenzen für die Erkennung dynamischer Anomalien im Körper, wie frühe zelluläre Apoptose, dem Fortschreiten von Hautläsionen oder unregelmäßigen menschlichen Bewegungen, die für die Früherkennung von Krankheiten und Interventionsstrategien entscheidend sind, eingesetzt werden – meinen zumindest die Forscher:innen. Robotik: Künftige Roboter könnten mit Hilfe von Sora und Co besser ihre komplexe Umwelt interpretieren lassen. Kein Wunder, dass OpenAi mittlerweile auch an der Zusammenarbeit mit dem Roboter-Startup Figure AI interessiert ist bzw. dort investiert hat

Welche Gefahren ergeben sich durch Sora?

Es ist kein Wunder, dass Sora für die Öffentlichkeit noch nicht zur Verwendung freigegeben wurde. Denn der potenzielle Missbrauch (z.B. gefälschte Politiker usw.) solcher Tools im Zusammenspiel mit der schnellen Verbreitung über Social-Media-Kanäle (TikTok, YouTube etc.) und der Situation, dass AI-Videos täuschend echt sind und nicht einwandfrei als solche (auch technisch) erkannt werden können, ist ein zu großes Risiko. Auch sind Halluzinationen und Bias nicht ausgeschlossen, was erzeugte Videos verzerren können.

Zwar gibt es die Möglichkeit, dass AI-Modelle bestimmte Nutzungen untersagt werden; so kann Dall-E 3 etwa keine Bilder echter Menschen generieren. Die Forscher:innen weisen aber darauf hin, dass man nie „Jailbreak“-Angriffe ausschließen können, bei denen versucht wird, Schwachstellen auszunutzen, um verbotene oder schädliche Inhalte zu erzeugen. Deswegen arbeitet OpenAi aktuell auch mit Red Teamers zusammen, die Sora intensiv nach solchen Schwachstellen, die ausgenutzt werden können, abtesten.

OpenAI zufolge soll Sora, wird es einmal zugänglich gemacht, keine Inhalte zu extremer Gewalt, sexuellen Handlungen, hasserfüllten Bildern, Abbildungen von Prominenten oder das geistige Eigentum anderer erzeugen können. Außerdem will man die C2PA-Metadaten integrieren, damit die Sora-Videos maschinell als AI-Videos erkannt werden können. Würde man die Videos aber einfach abfilmen, könnte man das leicht umgehen.