Meta AI: Neues KI-Modell I-JEPA kann fehlende Bildteile ergänzen
Mark Zuckerbergs Meta-Konzern bzw. seine KI-Abteilung Meta AI läuft zur Hochform auf – und veröffentlicht am laufenden Band neue KI-Modelle. Das neueste hört auf den Namen I-JEPA (kurz für Image-based Joint-Embedding Predictive Architecture) und kann aus Teilen eines Bildes den Rest rundherum errechnen. Diese Funktion kennt man bereits von der neusten Version von Photoshop, wo mit der neuen „Generative Fill“-Funktion Bilder auf Knopfdruck erweitert werden können.
I-JEPA, von Meta’s Chief AI Scientist Yann LeCun erarbeitet, will so etwas aber effizienter als andere Computer-Vision-Modelle schaffen. „Die Idee hinter I-JEPA ist es, fehlende Informationen in einer abstrakten Darstellung vorherzusagen, die dem allgemeinen Verständnis der Menschen ähnlicher ist. Im Vergleich zu generativen Methoden, die Vorhersagen im Pixel-/Token-Raum treffen, verwendet I-JEPA abstrakte Vorhersageziele, für die unnötige Details auf Pixel-Ebene potenziell eliminiert werden können“, heißt es seitens des Unternehmens.
Das bedeutet: Die fehlende Teile eines Bildes werden ergänzt, indem das JEPA-Modell Hintergrundwissen über die Welt verwendet, anstatt wie andere generative KI-Modelle nur nahe gelegene Pixel zu betrachten. Dieser Ansatz würde menschenähnliches Denken imitieren, und das wiederum helfe der Technologie, Fehler zu vermeiden, die bei KI-generierten Bildern häufig auftreten, wie z. B. Hände mit zusätzlichen Fingern, so das Unternehmen.
Man hätte es geschafft, ein visuelles Transformer-Modell mit 632 Millionen Parametern mit 16 A100-GPUs in weniger als 72 Stunden zu trainieren. „Andere Methoden benötigen in der Regel zwei- bis zehnmal mehr GPU-Stunden und erzielen schlechtere Fehlerraten, wenn sie mit der gleichen Datenmenge trainiert werden“, heißt es dazu weiter. Man arbeite nun daran, den JEPA-Ansatz auf andere Bereiche auszudehnen, etwa auf Bild-Text-Paare und Videodaten.
Meta AI fährt die Open-Source-Schiene
Auch bei I-JEPA geht Meta/Facebook wieder den bereits eingeschlagenen Weg: Trainingscode und die Modell-Prüfpunkte werden wieder als Open Source frei zugänglich gemacht. Meta AI hat bereits weitere AI-Modelle als Open Source freigegeben, darunter etwa berühmterweise auch LLaMA (Large Language Model Meta AI), das sich bereits in Open-Source-Kreisen verbreitet hat. Am Wochenende wurde auch MusicGen von Meta AI auf GitHub veröffentlicht. Das Tool kann mithilfe von KI Textaufforderungen in Musik umwandeln. Auch auf GitHub gibt es das Speech-to-Text bzw. Text-to-Speech-Modell „Massively Multilingual Speech“ (MMS).
Dass sich Meta so freizügig mit seine AI-Modellen gibt, soll folgenden Grund haben: „Für uns ist es viel besser, wenn die Industrie die grundlegenden Werkzeuge, die wir verwenden, standardisiert und wir so von den Verbesserungen profitieren können, die andere vornehmen“, sagte Meta-Chef Mark Zuckerberg im April.
Die Strategie dahinter könnte sein, die anderen Big-Tech-Player Google und Microsoft auf diesem Weg anzugreifen. Diese setzen eher auf proprietäre KI-Modelle wie GPT von OpenAI oder LaMDA, auf dem Google Bard basiert. Bei Google sieht man intern im AI-Bereich nicht Microsoft als die größte Konkurrenz, sondern eben Open Source (Trending Topics berichtete).
AI: Google hat nicht vor ChatGPT Angst, sondern vor Open Source