Nvidia hat auf der NeurIPS-Konferenz in San Diego ein neues Kapitel in der Entwicklung physischer KI aufgeschlagen. Der Tech-Gigant hat nun Nvidia Drive Alpamayo-R1 vorgestellt, das weltweit erste offene Vision-Language-Action-Modell mit Reasoning-Fähigkeiten für autonomes Fahren.

Das Modell basiert auf Nvidias Cosmos-Reason-Architektur und soll Fahrzeugen helfen, komplexe Verkehrssituationen mit „gesundem Menschenverstand“ zu bewältigen. Alpamayo-R1 ist ab sofort auf GitHub und Hugging Face verfügbar und richtet sich an Forschende, die an nicht-kommerziellen Anwendungen im Bereich autonomer Fahrzeuge arbeiten.

Das Besondere an Alpamayo-R1: Es integriert Chain-of-Thought-Reasoning in die Pfadplanung. Während frühere selbstfahrende Systeme bei nuancierten Situationen – etwa einer fußgängerreichen Kreuzung oder einer anstehenden Fahrbahnverengung – an ihre Grenzen stießen, zerlegt das neue Modell Szenarien in einzelne Schritte.

Neue Tools für Physical AI

Parallel zu Alpamayo-R1 hat Nvidia das Cosmos Cookbook veröffentlicht – einen umfassenden Leitfaden für Physical-AI-Entwickler, der von der Datenkuratierung über synthetische Datengenerierung bis zur Modellevaluierung reicht. Das Cookbook enthält Schritt-für-Schritt-Anleitungen und Quick-Start-Beispiele für die Nutzung und das Post-Training von Cosmos-basierten Modellen.

Die neuen Anwendungen sollen Vielseitigkeit demonstrieren:

LidarGen kann zum ersten Mal künstliche LiDAR-Daten für Simulationen autonomer Fahrzeuge erzeugen.

Omniverse NuRec Fixer entfernt Fehler aus KI-rekonstruierten Datensätzen.

ProtoMotions3 trainiert digitale Menschen und humanoide Roboter in realistischen, von Cosmos erzeugten Umgebungen.

Neben Physical AI hat Nvidia auch neue digitale KI-Tools angekündigt: MultiTalker Parakeet etwa erkennt mehrere Sprecher:innen in Echtzeit-Audio-Streams.

Strategische Ausrichtung

Nvidias Launches unterstreichen eine strategische Neuausrichtung auf Physical AI. CEO Jensen Huang hat wiederholt betont, die nächste KI-Welle sei Physical AI. Bill Dally, Chief Scientist bei Nvidia, sagt: „Ich denke, dass Roboter irgendwann eine große Rolle in der Welt spielen werden, und wir wollen im Grunde die Gehirne aller Roboter herstellen. Um das zu erreichen, müssen wir beginnen, die Schlüsseltechnologien zu entwickeln.“

Mit seinen offenen Modelle, Datensätze und Tools positioniert sich Nvidia als Infrastruktur-Provider für die nächste Generation von KI-Anwendungen – von autonomen Fahrzeugen über Roboter bis hin zu humanoiden Systemen.