Microsoft überrascht mit starkem Bildgenerator MAI-Image-2
Microsoft hat mit MAI-Image-2 ein eigenes Text-zu-Bild-Modell vorgestellt, das auf Anhieb den dritten Platz im Arena.ai-Leaderboard belegt. Damit positioniert sich der Konzern erstmals als eigenständiger Anbieter im Bereich der KI-Bildgenerierung und reduziert seine bisherige Abhängigkeit von externen Partnern wie OpenAI.
MAI ist ein Kürzel, das man sich wohl merken muss – es steht kurz für Microsoft AI und könnte künftig als DACH-Marke für alle weiteren Microsoft-Modelle dienen, die selbst entwickelt werden.
Strategische Bedeutung: Loslösung von OpenAI
Bislang hat Microsoft die Bildgenerierung in seinen Produkten wie Copilot und Bing Image Creator über lizenzierte Modelle von OpenAI abgewickelt und dafür viel investiert. Mit MAI-Image-2 verfolgt das Unternehmen nun eine andere Richtung: ein eigenes, intern entwickeltes Modell, das unabhängig von Drittanbietern weiterentwickelt werden kann.
Dieser Schritt gibt Microsoft die Kontrolle über Entwicklungsgeschwindigkeit, Kosten und Produktintegration zurück. Ein eigenes Modell bedeutet, dass Anpassungen und Iterationen nicht mehr von der Zusammenarbeit mit OpenAI abhängen. Gleichzeitig finanziert Microsoft mit Anthropic einen weiteren OpenAI-Konkurrenten, was die strategische Neuausrichtung des Konzerns unterstreicht.
Platz 3 im Arena-Ranking
MAI-Image-2 belegt laut dem unabhängigen Arena.ai-Leaderboard den dritten Platz unter allen Bildgenerierungs-Modellfamilien weltweit, hinter Modellen von Google und OpenAI. Damit ist Microsoft in kurzer Zeit zu einem ernstzunehmenden Wettbewerber in einem Segment aufgestiegen, in dem es zuvor nicht präsent war.
Unabhängige Tests deuten darauf hin, dass das Modell in bestimmten Kategorien sogar über seiner Ranglisten-Position performt. Besonders bei Fotorealismus und der Darstellung von Text in Bildern soll MAI-Image-2 vergleichbare oder bessere Ergebnisse liefern als GPT-Image von OpenAI, das auf der Rangliste noch vor dem Microsoft-Modell steht.
Technische Stärken des Modells
Das Modell wurde nach Angaben von Microsoft in enger Zusammenarbeit mit Fotografen, Designern und visuellen Gestaltern entwickelt. Drei Kernbereiche stehen dabei im Vordergrund:
- Fotorealismus: Natürliche Lichtverhältnisse, realistische Hauttöne und glaubwürdige Umgebungen sollen den Nachbearbeitungsaufwand für Kreative reduzieren.
- Textwiedergabe in Bildern: Typografie, Schilder, Infografiken und Poster können mit hoher Konsistenz generiert werden, was bei vielen anderen Modellen eine bekannte Schwachstelle ist.
- Detailreiche Szenenkonstruktion: Komplexe, surreale oder ornamentale Bildkompositionen sollen präzise und kohärent umgesetzt werden.
Aktuelle Einschränkungen
Trotz der technischen Leistungsfähigkeit weist das Modell in seiner aktuellen Form mehrere Einschränkungen auf, die den praktischen Einsatz begrenzen. Dazu zählen strenge Inhaltsfilter, die auch harmlose kreative Anfragen blockieren können, sowie eine Generierungspause von 30 Sekunden zwischen Bildern und ein Tageslimit von 15 Bildern in der nativen Oberfläche.
Hinzu kommt, dass ausschließlich das quadratische Format (1:1) unterstützt wird. Querformat, Hochformat oder benutzerdefinierte Seitenverhältnisse stehen bislang nicht zur Verfügung. Funktionen wie Bild-zu-Bild-Generierung, Inpainting oder die Nutzung von Referenzbildern fehlen ebenfalls noch.
Verfügbarkeit und Rollout
MAI-Image-2 ist ab sofort im MAI Playground verfügbar und wird schrittweise in Copilot und Bing Image Creator integriert. API-Zugang besteht derzeit für ausgewählte Unternehmenskunden, eine breitere Verfügbarkeit über Microsoft Foundry ist für die nahe Zukunft angekündigt.
Grundsätzlich könnte man den neuen Bildgenerator im AI Playground von Microsoft ausprobieren, allerdings ist dieser in der EU noch nicht verfügbar.

