Enthüllung

Google steckt hinter „Nano Banana“: Bisher bester Bildgenerator kommt für Gemini

Jakob Steinschaden26. August 2025, 18:01

Startup Interviewer: Gib uns dein erstes AI Interview

Das Geheimnis ist gelüftet: Google steckt hinter jener Bildgenerierungs-KI, die in den vergangenen Tagen für Furore in der AI-Branche sorgte und unter dem Codenamen „Nano Banana“ etwa bereits bei LMArena getestet werden konnte. Jetzt ist klar: Bei „Nano Banana“ handelt es sich um das neue Bildbearbeitungsmodell Gemini 2.5 Flash Image.

Das Modell erweitert die bestehenden Bildbearbeitungsfunktionen von Gemini – also der eigenständigen KI-ChatbotApp, erheblich und soll nach Angaben des Unternehmens das derzeit bestbewertete Bildbearbeitungsmodell weltweit sein. Hier die Benchmarks, die Google im Vergleich zu KI-Modellen von OpenAI, Black Forest Labs oder Alibaba herausgegeben hat:

Gemini-2-5-image-editing-performance

Technische Verfügbarkeit und Preisstruktur

Das neue Modell ist ab sofort über die Gemini API und Google AI Studio für Entwickler sowie über Vertex AI für Unternehmenskunden verfügbar. Die Preisgestaltung liegt bei 30 US-Dollar pro eine Million Ausgabe-Token, wobei jedes generierte Bild 1.290 Ausgabe-Token entspricht, was etwa 0,039 US-Dollar pro Bild ausmacht. Andere Modalitäten folgen der Standard-Preisstruktur von Gemini 2.5 Flash.

Kernfunktionen des Systems

Charakterkonsistenz

Eine der Hauptneuerungen liegt in der Fähigkeit zur Aufrechterhaltung der Charakterkonsistenz über mehrere Bearbeitungsschritte hinweg. Das System kann Personen, Tiere oder Objekte in verschiedene Umgebungen einsetzen, während deren charakteristische Merkmale erhalten bleiben. Dies ermöglicht beispielsweise die Erstellung einheitlicher Markenassets oder die Darstellung von Produkten aus verschiedenen Blickwinkeln.

Sprachbasierte Bildbearbeitung

Gemini 2.5 Flash Image ermöglicht gezielte Transformationen durch natürlichsprachliche Befehle. Zu den unterstützten Funktionen gehören das Unschärfen von Hintergründen, das Entfernen von Objekten oder Personen, Änderungen der Körperhaltung sowie die Kolorierung von Schwarz-Weiß-Aufnahmen.

Integration von Weltwissen

Im Unterschied zu herkömmlichen Bildgenerierungsmodellen nutzt das neue System das umfassende Weltwissen von Gemini. Dies ermöglicht ein tieferes semantisches Verständnis und erweitert die Anwendungsmöglichkeiten, etwa bei der Erstellung von Bildungsinhalten oder der Interpretation handgezeichneter Diagramme.

Multi-Image-Fusion

Das System kann mehrere Eingabebilder verstehen und zusammenführen. Nutzer können Objekte in neue Szenen einsetzen, Räume mit verschiedenen Farbschemata oder Texturen umgestalten oder verschiedene Bilder mit einem einzigen Befehl verschmelzen.

Entwicklerunterstützung und Partnerschaften

Google hat auch Updates für den „Build-Modus“ von Google AI Studio implementiert, um die Arbeit mit dem neuen Modell zu vereinfachen. Entwickler können Vorlagen verwenden oder eigene Anwendungen mit einzelnen Befehlen erstellen und diese direkt aus AI Studio heraus deployen oder den Code zu GitHub exportieren.

Das Unternehmen hat zudem Partnerschaften mit OpenRouter.ai und fal.ai angekündigt, um das Modell einer breiteren Entwicklergemeinschaft zugänglich zu machen. OpenRouter.ai stellt das Modell seinen über drei Millionen Entwicklern zur Verfügung – es ist das erste bildgenerierende Modell unter den über 480 verfügbaren Modellen der Plattform.

Kennzeichnung und Transparenz

Alle mit Gemini 2.5 Flash Image erstellten oder bearbeiteten Bilder erhalten sowohl ein sichtbares Wasserzeichen als auch Googles unsichtbare digitale SynthID-Kennzeichnung. Diese Maßnahmen sollen die Identifizierung KI-generierter Inhalte ermöglichen.

Google arbeitet nach eigenen Angaben kontinuierlich an Verbesserungen in den Bereichen Langtext-Rendering, zuverlässigere Charakterkonsistenz und faktische Genauigkeit bei Bilddetails. Das Modell befindet sich derzeit in der Vorschauphase und soll in den kommenden Wochen in eine stabile Version überführt werden.