Groq 3 LPU definiert Nvidias Roadmap neu

Groq 3 LPU und der strategische Wandel bei Rubin

Die Vorstellung des Groq 3 auf der GTC 2026 ist mehr als nur eine technische Neuerscheinung: Sie markiert einen strategischen Wandel in der Struktur der Inferenzplattform von Nvidia. Er ist mehr als nur ein neuer Chip; er definiert die interne Hierarchie von Rubin neu und läutet eine neue Phase im Wettbewerb um spezialisierte Siliziumchips ein.

Auf der GTC 2026 in San Jose stellte Nvidia den Inferenzbeschleuniger Groq 3 vor: den ersten Chip, der aus dem am 24. Dezember 2025 unterzeichneten Lizenz- und Talentabkommen im Wert von 20 Milliarden US-Dollar hervorgeht. Es handelt sich um eine LPU (Sprachverarbeitungseinheit). basierend auf SRAM, das Nvidia Es ist als dedizierter Coprozessor für die Dekodierungsphase in die Vera-Rubin-Plattform integriert. Der Hersteller kündigte als voraussichtlichen Liefertermin das dritte Quartal 2026 an; die Produktion übernimmt Samsung im 4-nm-Verfahren. Es handelt sich zudem um Nvidias erstes Rack-Scale-Produkt, das auf Nicht-GPU-Chips basiert, und seine Markteinführung hat eine Neuordnung der eigenen Komponenten in der Roadmap erforderlich gemacht.

Das Herzstück des Groq 3 LPX ist der LP30-Chip: 512 MB SRAM pro Chip und 150 TB/s Speicherbandbreite. Zum Vergleich: Eine Rubin-GPU mit 288 GB HBM4 bietet etwa 22 TB/s; der Größenordnungsunterschied ist keine Nuance, sondern eine architektonische Entscheidung. Ein komplettes LPX-Rack beherbergt 256 LPUs mit insgesamt 128 GB SRAM und 40 PB/s Gesamtbandbreite. Nvidia gibt an, dass ein LPX-Rack in Kombination mit einem Rubin NVL72 in Modellen mit Billionen Parametern bis zu 35-mal so viel Leistung pro Megawatt liefert wie ein NVL72 allein, bei angestrebten Betriebskosten von 45 US-Dollar pro Million Token.

Groq 3 und die Funktion in Rubin

Rubin-Rack-Darstellung zur Veranschaulichung der SuperPOD-Architektur — Nvidia stellte seine Strategie für den Rubin SuperPOD mit sieben Chips auf der GTC 2026 vor. (Bildquelle: Nvidia)

Im geplanten Betrieb übernehmen Rubin-GPUs die Vorfüllphase – die Verarbeitung langer Kontexte und rechenintensiver Aufgaben –, während Groq-LPUs die Dekodierung und Token-Generierung mit reduzierter Latenz durchführen. Dynamo orchestriert diese heterogene Verteilung und weist Aufgaben basierend auf Batchgröße und Parallelität zu, um Leistung und Energieverbrauch optimal auszubalancieren.

Groqs ursprüngliches LPU-Design priorisierte Deterministik: eine VLIW-Pipeline (Very Long Instruction Word) mit großen SRAM-Speichern und einem Compiler, der die Ausführung vorplante und so Cache-Fehler und unerwartete Stopps eliminierte. Dies führte zu sehr hohen Token-Raten pro Benutzer, offenbarte aber ein Kapazitätsproblem: Frühere Generationen mit 230 MB SRAM pro Chip benötigten viele Dies, um mittelgroße Modelle unterzubringen, und die Architektur Es wurde von Anfang an auf Faltungsnetzwerke und nicht auf moderne Sprachmodelle ausgerichtet.

Die LP30 mildert einige dieser Einschränkungen mit 512 MB SRAM pro Chip und einer FP8-Rechenleistung von 1,23 PFLOPS. Samsung hat die Produktion – laut Ankündigungen – durch den Übergang von der Musterfertigung zur kommerziellen Produktion von rund 9.000 auf rund 15.000 Wafer erhöht. Auf der GTC wurde außerdem bekannt gegeben, dass AWS im Rahmen seiner Infrastrukturerweiterung Groq 3 LPUs zusammen mit über einer Million Nvidia-GPUs einsetzen wird.

Neben dem LP30 erwähnte Nvidia eine Produkt-Roadmap: einen LP35 mit NVFP4-Unterstützung, der auf die Rubin Ultra-Generation abgestimmt sein soll, und einen LP40, der später für den Feynman-Architekturzyklus geplant ist.

Was passiert mit Rubin CPX?

Bei GTC fehlte der Rubin CPX, der auf Inferenzbeschleuniger basierende GDDR7, das Nvidia Es war für September 2025 angekündigt worden. Es tauchte weder in den Hauptfolien auf, noch war es auf der Bühne präsent. Alles deutet darauf hin – ohne vollständige offizielle Bestätigung –, dass die CPX aus der Roadmap entfernt und in der Plattformhierarchie durch die LPX Groq 3 ersetzt wurde.

CPX wurde ursprünglich als kostengünstigere Alternative zur Beschleunigung der Kontextphase mit GDDR7 konzipiert, um dessen höhere Verfügbarkeit angesichts der HBM-Engpässe auszunutzen. Die LPUs von Groq machen jedoch große externe Speichermodule überflüssig und bieten eine deutlich höhere Bandbreite pro Chip – ein klarer Vorteil in einem Markt, in dem HBM weiterhin knapp ist und die GDDR7-Produktion noch im Aufbau begriffen ist. Bereits an Kunden bestellte CPX-Einheiten werden zwar weiterhin ausgeliefert, die strategische Ausrichtung scheint sich jedoch nun hin zur LPU-Integration zu verlagern.

Es gibt auch eine operative Analogie zur Übernahme von Mellanox im Jahr 2019: Startup-Technologien, die schließlich neue Architekturschichten innerhalb der Infrastruktur von Nvidia bilden – in ihrem Fall NVLink/InfiniBand – und in diesem Szenario könnte Groq zu einer ähnlichen Strukturkomponente innerhalb des Rubin-Ökosystems werden.

Konsolidierung des Marktes für Inferenzchips

Der Deal mit Groq war der sichtbarste Teil einer Konsolidierungswelle im Bereich der Inferenzchips, die bis 2025 erwartet wurde. In diesem Jahr übernahm AMD das KI-Team von Untether, Nvidia erwarb die Ausrüstung und das geistige Eigentum von Enfabrica für über 900 Millionen US-Dollar, Meta kaufte Rivos, und es gab – letztlich abgebrochene – Gespräche zwischen Intel und SambaNova, die zu einer Investition von 350 Millionen US-Dollar und einer Partnerschaft führten. Dieser Schritt verdeutlicht, dass der unabhängige Wettbewerb mit Nvidias CUDA-Ökosystem und dessen Größe erhebliche wirtschaftliche Herausforderungen mit sich bringt, selbst wenn die Technologie technisch überzeugend ist.

Das wiederkehrende Muster ist die Übernahme von Talenten und Technologien durch die großen Marktteilnehmer. Groq beispielsweise rechnete bis 2025 mit einem Umsatz von rund 500 Millionen Euro, doch diese Summe reichte nicht aus, um angesichts des strategischen Drucks dominanter Hersteller die Unabhängigkeit zu wahren. Analysten weisen darauf hin, dass nicht-exklusive Lizenzvereinbarungen zwar den Anschein von Wettbewerb erwecken, Konkurrenten aber in der Praxis neutralisieren, indem sie deren Technologie in die Plattform des Käufers integrieren.

Kundenspezifische Siliziumchips in Hyperscalern

Meta MTIA Roadmap-Diagramm für Inferenzbeschleuniger — Meta präsentierte seine MTIA-Roadmap kürzlich. (Bildnachweis: Meta)

Während Startups in größere Unternehmen integriert werden, treiben große Cloud-Anbieter ihre eigenen Silizium-Inferenzpipelines voran.

Meta kündigte die aufeinanderfolgenden Generationen von MTIA an, die gemeinsam mit Broadcom entwickelt wurden: von MTIA 300 – bereits im Produktiveinsatz für Ranking und Empfehlungen – bis hin zu MTIA 500, das auf generative Inferenz ausgerichtet ist und für den Masseneinsatz im Jahr 2027 geplant ist. Google hält an seiner TPU-Produktlinie (Ironwood v7) mit TFLOPS-Werten und großen Pods fest, und AWS entwickelt Trainium und Inferentia weiter, obwohl interne Daten bis 2024 eine relativ geringe Akzeptanz im Vergleich zu GPUs in der eigenen Infrastruktur von AWS zeigten.

Branchenumfragen und Prognosen unterstreichen die Bedeutung der Diversifizierung: Im November 2025 stufte die Futurum Group XPU-Beschleuniger als das am schnellsten wachsende Segment bei den Ausgaben für Rechenzentren im Jahr 2026 ein, und TrendForce prognostizierte für dasselbe Jahr einen deutlichen Anstieg der Lieferungen von kundenspezifischen ASICs durch Cloud-Anbieter.

Nvidias Reaktion war eindeutig: die Präsenz von Nicht-GPU-Chips auf der eigenen Plattform zu sichern, bevor Dritte dies tun. Die Groq 3 LPU ist der konkrete Beweis für diese Strategie; die Zukunft des Rubin CPX bleibt jedoch vorerst ungewiss.

Teilen Sie dies: