Amazon fordert mit neuen Trainium3-Chips Nvidia, Google heraus

Nvidia hat Blackwell, Google hat Ironwood – da darf auch Amazon nicht fehlen, wenn es darum geht, 2025 eine neue Generation der hauseigenen KI-Chips an den Start zu bringen. Und so hat die Cloud-Tochter Amazon Web Services (AWS) die allgemeine Verfügbarkeit seiner neuen KI-Chips der dritten Generation bekannt gegeben. Die Trainium3-Chips sind ab sofort in den EC2 Trn3 UltraServern als Teil des EC2 Ultracluster 3.0 verfügbar.
Technische Spezifikationen
Die neuen Chips werden von Annapurna Labs entwickelt, einem Unternehmen, das AWS bereits 2015 übernommen hat. Trainium3 wird im modernen 3-Nanometer-Prozess bei TSMC gefertigt und bietet folgende Leistungsmerkmale:
- Rechenleistung: Rund 2,5 PetaFLOPS bei FP8 für vollbesetzte Matrizen pro Chip (etwa 95 Prozent Steigerung gegenüber dem Vorgänger)
- Speicher: 144 GByte HBM-Speicher pro Package mit einer Bandbreite von rund 4,9 TByte/s (vermutlich HBM3e)
- Energieeffizienz: 40 Prozent effizienter als die Vorgängergeneration
- Skalierung: 144 Chips pro Trn3 UltraServer (gegenüber 64 beim Vorgänger)
Die Gesamtrechenleistung pro Server steigt um den Faktor 4,4 auf bis zu 362 PetaFLOPS. Die Leistung eines einzelnen Chips entspricht etwa der Hälfte von Nvidias Blackwell B100, allerdings unterstützt Trainium3 den Datentyp FP4 nicht.
Infrastruktur und Architektur
AWS hat die Server-Architektur grundlegend überarbeitet. Während beim Vorgänger 64 Trainium2-Chips zwei Racks benötigten, belegen 144 Trainium3-Chips nur noch ein Rack. Dies wird durch den Umstieg von Luft- auf Wasserkühlung ermöglicht, wodurch die Einschübe nur noch eine Höheneinheit benötigen.
Die Chips sind über das proprietäre Neuronlink-Netzwerk verbunden, das eine Latenz von unter 10 Mikrosekunden ermöglicht. Das neue NeuronSwitch-v1 bietet doppelt so viel Bandbreite innerhalb eines UltraServers. Durch weitere Vernetzung können EC2 UltraClusters 3.0 mit bis zu einer Million Trainium3-Chips aufgebaut werden – eine Verdoppelung gegenüber dem bisherigen Rekord-System „Project Rainier“ mit 500.000 Trainium2-Chips.
Kosten und Effizienz
AWS verspricht Kosteneinsparungen von bis zu 50 Prozent im Vergleich zu äquivalenten GPU-basierten Systemen beim Training und Betrieb von KI-Modellen. Bei Inferenz-Aufgaben sollen die Trainium3-UltraServer pro Megawatt viermal mehr Tokens generieren können als der Vorgänger.
In Tests mit OpenAIs Open-Weight-Modell GPT-OSS erreichen Trn3 UltraServer eine dreimal höhere Durchsatzrate pro Chip bei viermal schnelleren Antwortzeiten im Vergleich zu Trn2 UltraServern.
Kunden und Anwendungsfälle
Mehrere Unternehmen nutzen bereits Trainium-Chips in der Produktion:
- Anthropic verwendet das Project-Rainier-System für das Claude-Sprachmodell
- Decart, ein KI-Video-Startup, erreicht nach eigenen Angaben mit Trainium3 eine viermal schnellere Bild-Generierung bei halben Kosten im Vergleich zu GPUs
- Amazon Bedrock betreibt bereits Produktions-Workloads auf Trainium3
- Weitere Kunden wie Karakuri, Metagenomi, NetoAI, Ricoh und Splash Music berichten von Kostensenkungen bis zu 50 Prozent
Ausblick auf Trainium4
AWS arbeitet bereits an der nächsten Generation. Trainium4 soll folgende Verbesserungen bringen:
- Unterstützung für FP4-Datentyp
- Verdreifachung der Rechenleistung bei FP8
- Vervierfachung der Speicherbandbreite
In einer bedeutenden strategischen Änderung wird AWS beim Trainium4 das eigene Neuron-Netzwerk zugunsten von Nvidias NVLink Fusion aufgeben. Diese Schnittstelle soll auch von AWS-eigenen Graviton-CPUs und Nitro-NPUs genutzt werden. Die Hardware wird in MGX-Racks installiert, die auch Nvidias GPUs aufnehmen können, was Kosten senken und mehr Flexibilität ermöglichen soll.
Marktkontext
Die Einführung von Trainium3 ist Teil der Bestrebungen mehrerer Unternehmen, Alternativen zu Nvidia zu entwickeln, das den GPU-Markt dominiert. Immer mehr KI-Unternehmen versuchen, ihre Lieferketten zu diversifizieren und Hardware von verschiedenen Anbietern zu beziehen.




























