Liquid AI: Neue KI-Modelle sollen Open Source von Meta, Alibaba und Co schlagen
Das KI-Startup Liquid AI hat gemeinsam mit AMD im Rahmen der Elektronik-Show CES eine neue Generation von Foundation Models vorgestellt, die speziell für den Betrieb direkt auf Endgeräten konzipiert sind. Die Liquid Foundation Models (LFM) setzen auf eine Hybrid-Architektur, die den Speicherverbrauch minimiert und eine schnelle Anpassung an spezifische Aufgaben ermöglicht.
Anders als herkömmliche Transformer-Modelle nutzt die LFM-Architektur nur zu etwa 20 Prozent Attention-Mechanismen, während der Großteil der Berechnungen durch eindimensionale Faltungsoperationen erfolgt. Diese Designentscheidung reduziert den RAM-Bedarf drastisch und beschleunigt die Inferenz, ohne die Leistungsfähigkeit zu beeinträchtigen. AMD hat die Modelle für seine Ryzen-AI-Plattform optimiert und ermöglicht damit erstmals den vollständigen Betrieb über CPU, GPU und NPU hinweg.
Liquid AI mit den Gründern Ramin Hasani und Mathias Lechner hat seine Wurzeln in Wien. Die Kooperation mit AMD, einer der größten Konkurrenten von Nvidia, ist keine Überraschung. Eine große Finanzierungsrunde von 250 Mio. Dollar Ende 2024 wurde von AMD angeführt. Die neuen LFMs reichen zwar nicht an die großen LLMs von OpenAI, Google und Co heran, aber sie sind meist besser als kleine Open-Source-Modelle etwa von Meta (Llama) oder Alibaba (Qwen). Lokal installiert, sollen sie etwa in Fahrzeugen, mobile Geräten, Laptops, IoT-Geräten und eingebettete Systemen zum Einsatz kommen.
Begrenzter RAM auf mobilen Endgeräten
Die zentrale Herausforderung für KI auf Endgeräten liegt im begrenzten Arbeitsspeicher. Während Rechenzentren über High-Bandwidth-Memory in großem Umfang verfügen, müssen Laptops und PCs mit 16 bis 64 GB auskommen. Transformer-basierte Open-Source-Modelle skalieren jedoch quadratisch mit der Sequenzlänge und benötigen entsprechend viel Speicher.
Kleinere Allzweck-Modelle wiederum liefern oft nicht die erwartete Qualität. Liquid AI verfolgt einen anderen Ansatz: Die LFM-Modelle sind von Grund auf für Hardware-Beschränkungen konzipiert und nicht nachträglich durch Quantisierung verkleinert worden. Das kürzlich veröffentlichte LFM2.5 wurde auf acht Billionen Token trainiert und bietet Varianten für Text, multimodale Anwendungen sowie spezialisierte Versionen für Japanisch, Vision und Audio. Die Feinabstimmung ist dabei um 300 Prozent GPU-effizienter als bei der Vorgängergeneration LFM1.
Meeting-Zusammenfassungen in Echtzeit auf Standard-Hardware
Als Praxisbeispiel haben Liquid AI und AMD ein auf Meeting-Transkription spezialisiertes Modell mit 2,6 Milliarden Parametern entwickelt und auf einem AMD Ryzen AI 400 Series Prozessor eingesetzt. Das Projekt ging in weniger als zwei Wochen von der Konzeption bis zur Deployment-Phase. Das Modell verarbeitet Transkripte mit bis zu 10.000 Token und benötigt dabei lediglich 2,7 GB RAM – ein Bruchteil dessen, was vergleichbare Transformer-Modelle erfordern. Qwen3-8B benötigt für dieselbe Aufgabe 6,2 GB, GPT-OSS-20B sogar 9,7 GB. Damit läuft das LFM-Modell problemlos auf 16-GB-Systemen, während größere Modelle an die Grenzen stoßen.
In Benchmarks erreicht das feinabgestimmte LFM2-2.6B-Modell bei kurzen Transkripten eine Genauigkeit von 86 Prozent und übertrifft damit GPT-OSS-20B mit 83 Prozent deutlich. Bei längeren Transkripten liegt die Genauigkeit bei 77 Prozent, während GPT-OSS-20B auf 71 Prozent kommt. Größere Modelle wie Qwen3-30B und Claude Sonnet erreichen zwar höhere Werte von 88 bis 93 Prozent, benötigen aber ein Vielfaches an Ressourcen.
Die Geschwindigkeit überzeugt ebenfalls: Auf einem AMD Ryzen AI Max+ 395 Prozessor fasst das Modell ein 60-minütiges Meeting in 16 Sekunden zusammen – 59 Prozent schneller als Qwen3-8B und 30 Prozent schneller als GPT-OSS-20B. Auf dem Ryzen AI 400 Series dauert derselbe Vorgang 42 Sekunden, was immer noch deutlich unter den Werten der Konkurrenz liegt.
Breites Modell-Portfolio für diverse Einsatzszenarien
Die LFM2.5-Familie umfasst mehrere spezialisierte Varianten. Das Basis-Modell LFM2.5-1.2B steht in einer vortrainierten Version für eigene Feinabstimmungen sowie als Instruct-Variante für direkte Anwendungen bereit. Letztere wurde mit Supervised Fine-Tuning, Preference Alignment und mehrstufigem Reinforcement Learning trainiert und liefert in Benchmarks wie GPQA, MMLU-Pro und IFEval deutlich bessere Ergebnisse als vergleichbare Modelle von Meta, Google oder IBM.
Das japanische Modell LFM2.5-1.2B-JP übertrifft in sprachspezifischen Tests sowohl das allgemeine LFM2.5 als auch Qwen3 und erreicht bei JMMLU 50,7 Prozent sowie bei M-IFEval 58,1 Prozent. Das Vision-Language-Modell LFM2.5-VL-1.6B verbessert die Verarbeitung mehrerer Bilder und unterstützt neben Englisch auch Arabisch, Chinesisch, Französisch, Deutsch, Japanisch, Koreanisch und Spanisch. Das Audio-Modell LFM2.5-Audio-1.5B verarbeitet Sprache nativ ohne Pipeline aus Transkription, LLM und Text-to-Speech. Der neue Audio-Detokenizer auf LFM-Basis arbeitet achtmal schneller als der Vorgänger Mimi bei vergleichbarer Qualität.
Liquid AI hat die Modelle von Beginn an für gängige Inference-Frameworks optimiert. Alle Varianten laufen auf llama.cpp für CPU-Inferenz, MLX für Apple Silicon, vLLM für GPU-beschleunigte Deployments und ONNX für plattformübergreifende Einsätze. Partnerschaften mit AMD und Nexa AI bringen die Modelle zudem auf NPUs von AMD, Qualcomm und anderen Herstellern.
Auf einem AMD Ryzen AI 9 HX 370 erreicht das LFM2.5-1.2B-Instruct-Modell 2.975 Token pro Sekunde beim Prefill und 116 Token pro Sekunde bei der Dekodierung, bei einem Speicherbedarf von nur 856 MB. Auf Qualcomm-Hardware wie dem Snapdragon Gen4 in Smartphones oder dem Dragonwing IQ9 für IoT-Geräte liefert das Modell ähnlich hohe Durchsatzraten. Die Kombination aus geringem Speicherbedarf, hoher Geschwindigkeit und breiter Hardware-Unterstützung positioniert die LFM-Modelle als praktikable Option für Edge-AI-Anwendungen, die Datenschutz, niedrige Latenz und Unabhängigkeit von Cloud-Diensten erfordern.

