Groq 3 LPU omdefinierar Nvidias färdplan

Groq 3 LPU och det strategiska skiftet på Rubin

Avtäckningen av Groq 3 på GTC 2026 är mer än bara en teknisk lansering: den markerar ett strategiskt skifte i hur Nvidia strukturerar sin inferensplattform. Mer än bara ett nytt chip omdefinierar det Rubins interna hierarki och föregriper en tydlig fas i konkurrensen om specialiserat kisel.

Vid GTC 2026, som hölls i San Jose, presenterade Nvidia inferensacceleratorn Groq 3: det första chipet som kommer från deras licens- och talangavtal på 20 miljarder dollar som undertecknades den 24 december 2025. Det är en LPU (språkbehandlingsenhet) baserat på SRAM som Nvidia Den är integrerad i Vera Rubin-plattformen som en dedikerad hjälpprocessor för avkodningsfasen. Tillverkaren tillkännagav ett förväntat leveransdatum under tredje kvartalet 2026; produktionen kommer att hanteras av Samsung på en 4nm-nod. Det är också Nvidias första rackskaliga produkt designad kring icke-GPU-kisel, och dess ankomst har lett till en omordning av sina egna komponenter i färdplanen.

Hjärtat i Groq 3 LPX är LP30-chippet: 512 MB SRAM per chipp och 150 TB/s minnesbandbredd per chip. För att sätta detta i perspektiv erbjuder en Rubin GPU med 288 GB HBM4 cirka 22 TB/s; skillnaden i storleksordning är inte en nyans utan ett arkitektoniskt val. Ett komplett LPX-rack rymmer 256 LPU:er, totalt 128 GB SRAM och 40 PB/s aggregerad bandbredd. Nvidia hävdar att, i kombination med en Rubin NVL72, levererar ett LPX-rack upp till 35 gånger prestandan per megawatt jämfört med en ensam NVL72 i biljonparametermodeller, med ett driftskostnadsmål på 45 dollar per miljon tokens.

Groq 3 och funktionen i Rubin

Rubin-rackrendering som illustrerar SuperPOD-arkitekturen — Nvidia presenterade sin strategi med sju chip, Rubin SuperPOD, på GTC 2026. (Bildkälla: Nvidia)

I den planerade operationen hanterar Rubin-GPU:er förfyllningsfasen – bearbetning av långa kontexter och beräkningar med hög densitet – medan Groq-LPU:er hanterar avkodning och tokengenerering med reducerad latens. Dynamo orkestrerar denna heterogena distribution och tilldelar uppgifter baserat på batchstorlek och parallellitet för att balansera prestanda och energikostnad.

Groqs ursprungliga LPU-design prioriterade determinism: en VLIW-pipeline (Very Long Instruction Word) med stora SRAM-banker och en kompilator som förplanerade exekveringen, vilket eliminerade cachemissar och oväntade stopp. Detta resulterade i mycket höga token-hastigheter per användare, men avslöjade ett kapacitetsproblem: tidigare generationer med 230 MB SRAM per chip krävde många chips för att rymma medelstora modeller, och arkitektur Det föddes inriktat på faltningsnätverk snarare än moderna språkmodeller.

LP30 mildrar några av dessa begränsningar med 512 MB SRAM per chippe och 1,23 PFLOPS FP8-beräkningskapacitet. Samsung har skalat upp produktionen – från cirka 9 000 till cirka 15 000 wafers, enligt tillkännagivandena – genom att gå från prover till kommersiell tillverkning. På GTC tillkännagavs också att AWS kommer att driftsätta Groq 3 LPU:er tillsammans med mer än en miljon Nvidia GPU:er som en del av sin infrastrukturutbyggnad.

Utöver LP30 nämnde Nvidia en produktplan: en LP35 med NVFP4-stöd avsedd att anpassas till Rubin Ultra-generationen, och en LP40 planerad för Feynman-arkitekturcykeln senare.

Vad händer med Rubin CPX?

Vid GTC, avsaknaden av Rubin CPX, inferensacceleratorn baserad på GDDR7 som Nvidia Den hade tillkännagivits i september 2025. Den varken syntes på huvudbilderna eller på scenen. Allt tyder – utan fullständig officiell bekräftelse – på att CPX har tagits bort från färdplanen och ersatts i plattformshierarkin av LPX Groq 3.

CPX utformades ursprungligen som ett billigare alternativ för att accelerera kontextfasen med hjälp av GDDR7, och utnyttja dess större tillgänglighet inför brist på HBM. Groqs LPU:er eliminerar dock behovet av stora externa minnesmoduler och erbjuder betydligt högre bandbredd per krets – en tydlig fördel på en marknad där HBM-utbudet är fortsatt begränsat och GDDR7-produktionen fortfarande skalas upp. Medan CPX-enheter som redan är avsedda för kunder kan fortsätta att levereras, verkar den strategiska preferensen nu skifta mot LPU-integration.

Det finns också en operativ analogi med förvärvet av Mellanox 2019: startup-teknologier som i slutändan bildar nya arkitektoniska lager inom Nvidias infrastruktur – i deras fall NVLink/InfiniBand – och i detta scenario skulle Groq kunna bli en liknande strukturell komponent inom Rubins ekosystem.

Konsolidering av marknaden för inferenschip

Affären med Groq var den mest synliga delen av en konsolideringsvåg 2025 med fokus på inferenschips. Samma år förvärvade AMD Untether AI-teamet, Nvidia förvärvade Enfabricas utrustning och IP för över 900 miljoner dollar, Meta köpte Rivos, och det fördes samtal – som slutligen övergavs – mellan Intel och SambaNova som resulterade i en investering och ett partnerskap på 350 miljoner dollar. Detta drag återspeglar det faktum att det innebär allvarliga ekonomiska utmaningar att konkurrera oberoende mot Nvidias CUDA-ekosystem och skala, även när tekniken har tekniska fördelar.

Det återkommande mönstret är att de stora aktörerna absorberar talang och teknologi. Groq, till exempel, förväntade sig en omsättning på cirka 500 miljoner euro år 2025, men den siffran var inte tillräcklig för att behålla sitt oberoende inför strategiskt tryck från dominerande tillverkare. Analytiker påpekar att icke-exklusiva licensavtal bevarar sken av konkurrens, men i praktiken neutraliserar konkurrenter genom att integrera deras teknologi i köparens plattform.

Anpassad kisel i hyperskalare

Meta MTIA-färdplandiagram för inferensacceleratorer — Meta presenterade sin MTIA-färdplan nyligen. (Bildkälla: Meta)

Medan startups integreras i större företag, driver stora molnleverantörer sina egna kiselinferenspipelines.

Meta tillkännagav successiva generationer av MTIA, utvecklade med Broadcom: från MTIA 300 – redan i produktion för rangordning och rekommendation – till MTIA 500, inriktad på generativ inferens och planerad för massdistribution 2027. Google behåller sin TPU-linje (Ironwood v7) med TFLOPS-figurer och storskaliga poddar, och AWS fortsätter att utveckla Trainium och Inferentia, även om interna data fram till 2024 visade relativt låg användning jämfört med GPU:er i AWS egen infrastruktur.

Branschundersökningar och prognoser förstärker diversifieringen: I november 2025 rankade Futurum Group XPU-acceleratorer som det snabbast växande segmentet inom datacenterutgifter för 2026, och TrendForce förutspådde en märkbar ökning av leveranser av anpassade ASIC-kretsar från molnleverantörer för samma år.

Nvidias reaktion har varit tydlig: att säkra närvaron av icke-GPU-kisel i sin plattform innan tredje part gör det. Groq 3 LPU är den konkreta manifestationen av den strategin; framtiden för Rubin CPX är dock fortfarande osäker för tillfället.

Dela detta: