Mistral hilft jetzt Unternehmen, eigene KI auf Basis von Open-Weight-Modellen zu bauen
Den Wunsch nach einem eigenen KI-Modell auf hauseigenen Servern hegen viele, umzusetzen ist er aber nur schwer. Hier setzt nun Europas aktuell wertvollstes KI-Unternehmen Mistral AI an. Das französische Unicorn hat mit Forge eine Plattform vorgestellt, die es Unternehmen ermöglicht, eigene große Sprachmodelle auf Basis von Mistrals Open-Weight-Modellen zu trainieren. Damit reagiert das Startup auf einen zentralen Kritikpunkt an gängigen Unternehmens-KI-Lösungen: Die meisten verfügbaren Modelle wurden auf öffentlich zugänglichen Daten trainiert und verstehen weder die interne Fachsprache noch die spezifischen Prozesse eines Unternehmens.
Open Weight vs. Open Source: Ein wichtiger Unterschied
Bevor man versteht, was Forge leistet, lohnt sich ein Blick auf einen Begriff, der in der KI-Branche häufig missverstanden wird: Open Weight. Mistral veröffentlicht seine Modelle als Open-Weight-Modelle, was bedeutet, dass die trainierten Modellgewichte, also die numerischen Parameter, die das Verhalten des Modells bestimmen, öffentlich zugänglich sind und heruntergeladen werden können.
Das klingt nach Open Source, ist es aber nicht zwingend. Der Unterschied liegt im Detail:
| Merkmal | Open Weight | Open Source |
|---|---|---|
| Modellgewichte zugänglich | Ja | Ja |
| Trainingscode einsehbar | Nicht zwingend | Ja |
| Trainingsdaten offengelegt | Nein | Idealerweise ja |
| Freie kommerzielle Nutzung | Abhängig von Lizenz | Abhängig von Lizenz |
| Vollständige Reproduzierbarkeit | Eingeschränkt | Vollständig angestrebt |
Bei Open-Weight-Modellen erhalten Entwickler und Unternehmen Zugriff auf das fertig trainierte Modell. Sie können es lokal betreiben, anpassen und weiterentwickeln, ohne jedoch zu wissen, auf welchen genauen Daten es ursprünglich trainiert wurde oder wie der vollständige Trainingsprozess aussah. Open Source hingegen bedeutet im klassischen Sinne, dass der gesamte Quellcode, die Trainingsdaten und die Methodik offengelegt werden, sodass das Modell vollständig nachgebaut werden kann.
Was Forge konkret ermöglicht
Forge setzt auf diesen Open-Weight-Modellen auf und gibt Unternehmen die Werkzeuge, um sie mit eigenen Daten grundlegend weiterzutrainieren. Das unterscheidet den Ansatz von gängigen Alternativen wie Retrieval Augmented Generation (RAG) oder einfachem Fine-Tuning, bei denen das Basismodell selbst unverändert bleibt und Unternehmensdaten lediglich zur Laufzeit hinzugezogen werden.
Mistral beschreibt drei Trainingsstufen, die Forge unterstützt:
- Pre-Training: Unternehmen können Modelle von Grund auf mit großen internen Datensätzen trainieren, sodass das Modell domänenspezifisches Wissen tief verinnerlicht.
- Post-Training: Bestehende Modelle werden für spezifische Aufgaben und Umgebungen verfeinert, etwa für bestimmte Workflows oder Fachsprachen.
- Reinforcement Learning: Modelle werden anhand interner Richtlinien, Bewertungskriterien und operativer Ziele ausgerichtet, was besonders für den Einsatz in autonomen Agentensystemen relevant ist.
„Was Forge tut, ist es Unternehmen und Regierungen zu ermöglichen, KI-Modelle für ihre spezifischen Bedürfnisse anzupassen.“ (Elisa Salamanca, Head of Product bei Mistral)
Kontrolle über Daten und Modelle bleibt beim Unternehmen
Ein zentrales Versprechen von Forge ist die strategische Autonomie. Unternehmen trainieren ihre Modelle auf eigenen Daten, betreiben sie in eigener Infrastruktur und behalten die volle Kontrolle darüber, wie ihr institutionelles Wissen in das Modellverhalten einfließt. Das ist besonders für regulierte Branchen relevant, in denen Compliance-Anforderungen und interne Governance-Rahmenwerke eingehalten werden müssen.
Mistral-Mitgründer Timothée Lacroix erklärt den praktischen Vorteil kleinerer, angepasster Modelle gegenüber großen Allzweckmodellen so:
„Die Kompromisse, die wir beim Bau kleinerer Modelle eingehen, bedeuten, dass sie nicht in jedem Thema so gut sein können wie ihre größeren Pendants. Die Möglichkeit, sie anzupassen, erlaubt es uns, zu wählen, was wir betonen und was wir weglassen.“
Technische Flexibilität: Dense- und MoE-Architekturen
Forge unterstützt zwei grundlegende Modellarchitekturen, zwischen denen Unternehmen je nach Anforderungen wählen können:
- Dense-Modelle bieten starke allgemeine Leistungsfähigkeit für ein breites Spektrum an Unternehmensaufgaben.
- Mixture-of-Experts (MoE)-Modelle ermöglichen es, sehr große Modelle effizienter zu betreiben, mit geringerer Latenz und niedrigeren Rechenkosten bei vergleichbarer Leistung.
Darüber hinaus unterstützt Forge multimodale Eingaben, sodass Modelle nicht nur aus Texten, sondern auch aus Bildern und anderen Datenformaten lernen können.
Anwendungsfälle in der Praxis
Mistral hat Forge bereits mit einer Reihe von Partnerunternehmen und Behörden erprobt, darunter ASML, Ericsson, die Europäische Weltraumorganisation (ESA), das italienische Beratungsunternehmen Reply sowie die singapurischen Behörden DSO National Laboratories und HTX. Die Plattform wurde auf der Nvidia-Konferenz GTC vorgestellt.
Typische Einsatzbereiche, die Mistral nennt, umfassen:
- Behörden und Regierungen: Modelle, die auf spezifische Sprachen, Dialekte, Rechtsrahmen und Verwaltungsverfahren zugeschnitten sind.
- Finanzinstitute: Modelle, die Compliance-Anforderungen, Risikoverfahren und regulatorische Dokumentation verinnerlicht haben.
- Softwareentwicklungsteams: Modelle, die auf internen Codebasen und Entwicklungsstandards trainiert wurden, um kontextsensitive Unterstützung im gesamten Entwicklungszyklus zu bieten.
- Fertigungsunternehmen: Modelle für Diagnose, Konstruktionsanalyse und operative Entscheidungsfindung auf Basis von Spezifikationen und Wartungsprotokollen.
Begleitende Expertise durch eingebettete Ingenieure
Neben der technischen Plattform bietet Mistral sogenannte Forward-Deployed Engineers (FDEs) an, die direkt bei Kunden eingesetzt werden. Diese Spezialisten helfen dabei, die richtigen Daten zu identifizieren, Evaluierungsrahmen aufzubauen und Trainingspipelines zu optimieren. Salamanca betont, dass gerade das Wissen darüber, wie man die richtigen Bewertungsmetriken definiert und ausreichend qualitativ hochwertige Daten zusammenstellt, in den meisten Unternehmen noch fehlt.
Mistral, das zuletzt bei einer Bewertung von rund 11,7 Milliarden Euro Kapital aufgenommen hat und nach eigenen Angaben auf dem Weg zu mehr als einer Milliarde Euro jährlich wiederkehrendem Umsatz ist, positioniert sich mit Forge klar als Anbieter für Unternehmenskunden, die mehr Kontrolle über ihre KI-Systeme anstreben als es reine Cloud-Dienste bisher erlauben.


