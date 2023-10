Multimodale LLMs sind auf dem Vormarsch, und das neueste am Markt heißt Fuyu 8B. Es stammt vom AI-Startup Adept AI, das dieses Jahr 350 Mio. Dollar Investment geholt hat, und wurde nun via Hugging Face in der Open-Source-Version veröffentlicht. Laut Adept AI handelt es sich um eine kleinere Variante jenes LLMs, das seinen eigenen, kommenden Chatbot für Wissensarbeiter:innen antreibt, und soll vor allem eines gut können: Bilder jeglicher Art erkennen, verstehen, beschreiben und interpretieren können.

„Es hat eine viel einfachere Architektur und ein einfacheres Trainingsverfahren als andere multimodale Modelle, wodurch es leichter zu verstehen, zu skalieren und einzusetzen ist“, heißt es seitens Adept AI zu Fuyu 7B. „8B“ steht im Namen für die 7 Milliarden Parametern, auf denen das LLM beruht. Das zeigt schon: Es ist doch deutlich kleiner als einige andere Sprachmodelle wie Llama 2, das bis zu 70 Milliarden Parameter hat. Doch dass Fuyu eher klein ist, soll der praktischen Anwendung zugute kommen.

Besonders hervorgehoben wird die Bilderkennung von Fuyu. „Es wurde von Grund auf für digitale Agenten entwickelt und kann daher beliebige Bildauflösungen unterstützen, Fragen zu Graphen und Diagrammen beantworten, UI-basierte Fragen beantworten und eine feinkörnige Lokalisierung auf Bildschirmbildern vornehmen“, heißt es seitens Adept AI, das von David Luan, der vorher bei OpenAI und bei Google im AI-Bereich tätig war. „Es ist schnell – wir erhalten Antworten für große Bilder in weniger als 100 Millisekunden. Obwohl es für unseren Anwendungsfall optimiert wurde, schneidet es bei Standard-Benchmarks zum Bildverständnis wie der Beantwortung visueller Fragen und der Beschriftung natürlicher Bilder gut ab.“

Fuyu 8B: Rohmodell ohne Fintetuning

Fuyu 8B kann bereits kostenlos via Hugging Face geladen werden – was aber mit Vorsicht zu tun ist. Bei der Version handle es sich um ein Rohmodell ohne Finetuning. „Wir keine weiteren Feinabstimmungen, Nachbearbeitungen oder Stichprobenstrategien hinzugefügt, um unerwünschte Ergebnisse zu kontrollieren. Sie sollten damit rechnen, dass Sie das Modell für Ihren Anwendungsfall feinabstimmen müssen“, heißt es aus dem Unternehmen.

Man sei nun gespannt, was die AI-Community mit dem Open-Source-Modell anstelle. Klar ist aber auch: Die größere, bessere Version von Fuyu bleibt bei dem Startup aus San Francisco. Immerhin soll es dessen Chatbot, der sich wohl in einer kostenpflichtigen Version an Unternehmen richten wird, antreiben. Neben Fuyu hat Adept AI auch bereits ein kaum bekanntes LLM namens Persimmon 8B als Open Source veröffentlicht. Die Veröffentlichung von quelloffenen LLMs gehört mittlerweile zur Strategie sowohl von Startups wie auch Mistral AI aus Paris oder Bit-Tech-Playern wie Meta Platforms. Sie erhoffen sich dadurch, Teile der Entwickler:innen-Community an sich zu binden und ihren LLMs weitere Verbreitung zu geben – und so das Kerngeschäft zu stärken.