Technische Verfügbarkeit und Preisstruktur
Das neue Modell ist ab sofort über die Gemini API und Google AI Studio für Entwickler sowie über Vertex AI für Unternehmenskunden verfügbar. Die Preisgestaltung liegt bei 30 US-Dollar pro eine Million Ausgabe-Token, wobei jedes generierte Bild 1.290 Ausgabe-Token entspricht, was etwa 0,039 US-Dollar pro Bild ausmacht. Andere Modalitäten folgen der Standard-Preisstruktur von Gemini 2.5 Flash.
Kernfunktionen des Systems
Charakterkonsistenz
Eine der Hauptneuerungen liegt in der Fähigkeit zur Aufrechterhaltung der Charakterkonsistenz über mehrere Bearbeitungsschritte hinweg. Das System kann Personen, Tiere oder Objekte in verschiedene Umgebungen einsetzen, während deren charakteristische Merkmale erhalten bleiben. Dies ermöglicht beispielsweise die Erstellung einheitlicher Markenassets oder die Darstellung von Produkten aus verschiedenen Blickwinkeln.
Sprachbasierte Bildbearbeitung
Gemini 2.5 Flash Image ermöglicht gezielte Transformationen durch natürlichsprachliche Befehle. Zu den unterstützten Funktionen gehören das Unschärfen von Hintergründen, das Entfernen von Objekten oder Personen, Änderungen der Körperhaltung sowie die Kolorierung von Schwarz-Weiß-Aufnahmen.
Integration von Weltwissen
Im Unterschied zu herkömmlichen Bildgenerierungsmodellen nutzt das neue System das umfassende Weltwissen von Gemini. Dies ermöglicht ein tieferes semantisches Verständnis und erweitert die Anwendungsmöglichkeiten, etwa bei der Erstellung von Bildungsinhalten oder der Interpretation handgezeichneter Diagramme.
Multi-Image-Fusion
Das System kann mehrere Eingabebilder verstehen und zusammenführen. Nutzer können Objekte in neue Szenen einsetzen, Räume mit verschiedenen Farbschemata oder Texturen umgestalten oder verschiedene Bilder mit einem einzigen Befehl verschmelzen.
Entwicklerunterstützung und Partnerschaften
Google hat auch Updates für den „Build-Modus“ von Google AI Studio implementiert, um die Arbeit mit dem neuen Modell zu vereinfachen. Entwickler können Vorlagen verwenden oder eigene Anwendungen mit einzelnen Befehlen erstellen und diese direkt aus AI Studio heraus deployen oder den Code zu GitHub exportieren.
Das Unternehmen hat zudem Partnerschaften mit OpenRouter.ai und fal.ai angekündigt, um das Modell einer breiteren Entwicklergemeinschaft zugänglich zu machen. OpenRouter.ai stellt das Modell seinen über drei Millionen Entwicklern zur Verfügung – es ist das erste bildgenerierende Modell unter den über 480 verfügbaren Modellen der Plattform.
Kennzeichnung und Transparenz
Alle mit Gemini 2.5 Flash Image erstellten oder bearbeiteten Bilder erhalten sowohl ein sichtbares Wasserzeichen als auch Googles unsichtbare digitale SynthID-Kennzeichnung. Diese Maßnahmen sollen die Identifizierung KI-generierter Inhalte ermöglichen.
Google arbeitet nach eigenen Angaben kontinuierlich an Verbesserungen in den Bereichen Langtext-Rendering, zuverlässigere Charakterkonsistenz und faktische Genauigkeit bei Bilddetails. Das Modell befindet sich derzeit in der Vorschauphase und soll in den kommenden Wochen in eine stabile Version überführt werden.