De Groq 3 LPU herdefinieert Nvidia's roadmap.

Groq 3 LPU en de strategische verschuiving bij Rubin

De onthulling van de Groq 3 op GTC 2026 is meer dan alleen een technische lancering: het markeert een strategische verschuiving in de manier waarop Nvidia zijn inferentieplatform structureert. Het is meer dan alleen een nieuwe chip; het herdefinieert de interne hiërarchie van Rubin en loopt vooruit op een nieuwe fase in de concurrentie om gespecialiseerde siliciumchips.

Tijdens GTC 2026 in San Jose onthulde Nvidia de Groq 3 inferentieversneller: de eerste chip die voortkomt uit de licentie- en talentovereenkomst van 20 miljard dollar die op 24 december 2025 werd getekend. Het is een LPU (taalverwerkingseenheid). gebaseerd op SRAM dat Nvidia Het is geïntegreerd in het Vera Rubin-platform als een speciale coprocessor voor de decoderingsfase. De fabrikant kondigde een verwachte leveringsdatum aan voor het derde kwartaal van 2026; de productie zal door Samsung worden verzorgd op een 4nm-node. Het is tevens Nvidia's eerste rack-scale product dat is ontworpen rondom niet-GPU-chips, en de komst ervan heeft geleid tot een herziening van de eigen componenten in de roadmap.

Het hart van de Groq 3 LPX is de LP30-chip: 512 MB SRAM per chip en een geheugenbandbreedte van 150 TB/s per chip. Ter vergelijking: een Rubin GPU met 288 GB HBM4 biedt ongeveer 22 TB/s; het verschil in orde van grootte is geen nuance, maar een architectonische keuze. Een volledig LPX-rack bevat 256 LPU's, goed voor in totaal 128 GB SRAM en een totale bandbreedte van 40 PB/s. Nvidia beweert dat een LPX-rack, in combinatie met een Rubin NVL72, tot 35 keer de prestaties per megawatt levert vergeleken met een NVL72 alleen in modellen met biljoenen parameters, met een beoogde operationele kostprijs van $45 per miljoen tokens.

Groq 3 en de functie in Rubin

Een rendering van een Rubin-rack ter illustratie van de SuperPOD-architectuur. — Nvidia heeft tijdens GTC 2026 zijn Rubin SuperPOD-strategie met zeven chips uiteengezet. (Afbeelding: Nvidia)

In de geplande werking verzorgen Rubin GPU's de prefill-fase – het verwerken van lange contexten en complexe berekeningen – terwijl Groq LPU's het decoderen en genereren van tokens met een lagere latentie afhandelen. Dynamo coördineert deze heterogene verdeling en wijst taken toe op basis van batchgrootte en parallellisatie om een balans te vinden tussen prestaties en energieverbruik.

Groq's oorspronkelijke LPU-ontwerp gaf prioriteit aan determinisme: een VLIW-pipeline (Very Long Instruction Word) met grote SRAM-banken en een compiler die de uitvoering vooraf plande, waardoor cachemissers en onverwachte stops werden geëlimineerd. Dit resulteerde in zeer hoge tokensnelheden per gebruiker, maar bracht een capaciteitsprobleem aan het licht: eerdere generaties met 230 MB SRAM per chip vereisten veel chips om middelgrote modellen te kunnen huisvesten, en de architectuur Het is ontstaan vanuit een focus op convolutionele netwerken in plaats van moderne taalmodellen.

De LP30 verzacht een aantal van deze beperkingen met 512 MB SRAM per chip en een FP8-rekenkracht van 1,23 PFLOPS. Samsung heeft de productie opgeschaald – van ongeveer 9.000 naar ongeveer 15.000 wafers, volgens de aankondigingen – door over te stappen van samples naar commerciële productie. Tijdens GTC werd ook aangekondigd dat AWS Groq 3 LPU's zal inzetten naast meer dan een miljoen Nvidia GPU's als onderdeel van de uitbreiding van de infrastructuur.

Naast de LP30 noemde Nvidia een productroadmap: een LP35 met NVFP4-ondersteuning, bedoeld om aan te sluiten bij de Rubin Ultra-generatie, en een LP40 die later gepland staat voor de Feynman-architectuurcyclus.

Wat is er aan de hand met Rubin CPX?

Bij GTC was de Rubin CPX, de inferentieversneller gebaseerd op, afwezig. GDDR7 van Nvidia Het was aangekondigd voor september 2025. Het verscheen niet op de belangrijkste slides en was ook niet op het podium te zien. Alles wijst erop – zonder volledige officiële bevestiging – dat de CPX van de roadmap is verwijderd en in de platformhiërarchie is vervangen door de LPX Groq 3.

CPX werd aanvankelijk bedacht als een goedkoper alternatief om de contextfase te versnellen met behulp van GDDR7, profiterend van de grotere beschikbaarheid ervan in een markt met een tekort aan HBM-geheugen. De LPU's van Groq maken echter grote externe geheugenmodules overbodig en bieden een aanzienlijk hogere bandbreedte per chip – een duidelijk voordeel in een markt waar de HBM-voorraad krap blijft en de GDDR7-productie nog steeds wordt opgeschaald. Hoewel reeds aan klanten geleverde CPX-eenheden mogelijk nog steeds worden geleverd, lijkt de strategische voorkeur nu te verschuiven naar LPU-integratie.

Er is ook een operationele analogie met de overname van Mellanox in 2019: start-uptechnologieën die uiteindelijk nieuwe architectonische lagen vormen binnen de infrastructuur van Nvidia — in hun geval NVLink/InfiniBand — en in dit scenario zou Groq een vergelijkbare structurele component kunnen worden binnen het Rubin-ecosysteem.

Consolidatie van de markt voor inferentiechips

De deal met Groq was het meest in het oog springende onderdeel van een consolidatiegolf in 2025, gericht op inferentiechips. Dat jaar nam AMD het Untether AI-team over, verwierf Nvidia de apparatuur en het intellectueel eigendom van Enfabrica voor meer dan 900 miljoen dollar, kocht Meta Rivos, en waren er gesprekken – die uiteindelijk werden afgebroken – tussen Intel en SambaNova die resulteerden in een investering en partnerschap van 350 miljoen dollar. Deze stap weerspiegelt het feit dat onafhankelijk concurreren met Nvidia's CUDA-ecosysteem en schaalvoordelen ernstige economische uitdagingen met zich meebrengt, zelfs wanneer de technologie technisch gezien de moeite waard is.

Het terugkerende patroon is de absorptie van talent en technologie door de grote spelers. Groq verwachtte bijvoorbeeld een omzet van ongeveer €500 miljoen in 2025, maar dat bedrag was niet voldoende om de onafhankelijkheid te behouden onder de strategische druk van dominante fabrikanten. Analisten wijzen erop dat niet-exclusieve licentieovereenkomsten de schijn van concurrentie ophouden, maar in de praktijk concurrenten neutraliseren door hun technologie te integreren in het platform van de koper.

Op maat gemaakte siliciumchips in hyperscalers

Meta MTIA-routekaartdiagram voor inferentieversnellers — Meta presenteerde zijn MTIA-routekaart. onlangs. (Afbeelding: Meta)

Terwijl startups integreren in grotere bedrijven, zetten grote cloudproviders hun eigen hardwarematige inferentiepipelines in.

Meta kondigde opeenvolgende generaties van MTIA aan, ontwikkeld in samenwerking met Broadcom: van MTIA 300 – die al in productie is voor ranking en aanbevelingen – tot MTIA 500, gericht op generatieve inferentie en gepland voor massale implementatie in 2027. Google handhaaft zijn TPU-lijn (Ironwood v7) met TFLOPS-cijfers en grootschalige pods, en AWS blijft Trainium en Inferentia ontwikkelen, hoewel interne gegevens tot 2024 een relatief lage adoptie lieten zien in vergelijking met GPU's in de eigen infrastructuur van AWS.

Brancheverkenningen en -prognoses bevestigen de noodzaak tot diversificatie: in november 2025 rangschikte Futurum Group XPU-acceleratoren als het snelstgroeiende segment in de uitgaven van datacenters voor 2026, en TrendForce voorspelde een aanzienlijke toename in de leveringen van op maat gemaakte ASIC's door cloudproviders voor datzelfde jaar.

Nvidia's reactie was duidelijk: de aanwezigheid van niet-GPU-chips binnen het eigen platform veiligstellen voordat derden dat doen. De Groq 3 LPU is de concrete manifestatie van die strategie; de toekomst van de Rubin CPX blijft echter voorlopig onzeker.

Deel dit: