Veröffentlichung

DeepSeek legt AI-Bildgenerator nach, greift Dall-E und Stable Diffusion an

Jakob Steinschaden27. Januar 2025, 19:28

DeepSeek am Smartphone. © Canva Pro — DeepSeek on Smartphone. © Canva Pro

Startup Interviewer: Gib uns dein erstes AI Interview

Sie sitzen gerade am Drücker, und das wissen sie. Und wirbeln weiter Staub auf. Nachdem die Veröffentlichung von DeepSeek R1 es schaffte, die Aktienkurse von Bit Tech auf Talfahrt zu schicken und das Silicon Valley in helle Aufruhr zu versetzen, legt die AI-Firma aus China noch eines drauf. Am Montag Abend mitteleuropäischer Zeit wurde nun Janus-Pro veröffentlicht – wieder unter Lizenzen, die dafür sorgen sollen, das das Bild-Modell möglichst frei verfügbar ist.

Was ist Janus-Pro nun? In erster Linie ein Text-to-Image-Generator, mit dem man nach mittlerweile bekannter Art und Weise Bilder prompten kann. Die Macher, also das Entwicklungs-Team der chinesischen Firma, heben hervor, dass Janus-Pro sowohl seinen Vorgänger „Jansu“ als auch – und das ist wichtig – viele andere Modelle in Benchmarks übertrifft. Namentlich genannt werden die bekannten Bildgeneratoren Dall-E 3 von OpenAI sowie Stable Diffusion 3 Medium. Der Vergleich zu FLUX von Black Forest Labs, für viele Experten der aktuell beste Bildgenerator, wird noch gescheut.

Außerdem soll das Modell quasi „sehen“ können, also Bilder, mit denen es gefüttert wird, inhaltlich beschreiben können. Das ist etwa wichtig, wenn man etwa bekannte Objekte in Aufnahmen erkennen will oder wenn es um das Auslesen von Text in Fotos geht (OCR).

Limitierungen bei Input und Output

Perfekt sind die Leistungen hinsichtlich Input und Output noch nicht, das geht es dem begleitenden wissenschaftlichen Dokument deutlich hervor. So gibt es eine begrenzte Eingabeauflösung von 384×384 Pixeln, was die Leistung bei Aufgaben wie OCR (Optical Character Recognition) einschränkt, auch limitiert eine niedrige Ausgabeauflösung bei der Bildgenerierung. Generierte Bilder würden manchmal auch Schwächen bei feinen Details, haben. Beispiel: Kleine Bildbereiche wie Gesichter können unterdetailliert erscheinen.

Hinsichtlich Trainingsdaten gibt es nur vage Einblicke. So sollen 90 Millionen zusätzliche Datensätze für das Bildverständnis und 72 Millionen synthetische Bilder für die Bildgenerierung genutzt worden sein – um welche Bilder es sich genau handelt, ist nicht zu erfahren.

Abzuwarten bleibt, wie sich Janus-Pro in der Praxis bewährt – Limitierungen gibt es sicherlich. Bemerkenswert ist aber auf jeden Fall, dass sich nun quasi jeder kostenlos ein AI-Modell von Github, Hugging Face und Co holen kann, das es mit anderen bekannten Bildgeneratoren am Markt aufnehmen kann.