Groq 3 LPU ridefinisce la roadmap di Nvidia

Groq 3 LPU e il cambiamento strategico in Rubin

La presentazione del Groq 3 al GTC 2026 è molto più di un semplice lancio tecnico: segna un cambiamento strategico nel modo in cui Nvidia struttura la sua piattaforma di inferenza. Più che un semplice nuovo chip, ridefinisce la gerarchia interna di Rubin e anticipa una fase distinta nella competizione per i semiconduttori specializzati.

Al GTC 2026, tenutosi a San Jose, Nvidia ha svelato l'acceleratore di inferenza Groq 3: il primo chip derivante dall'accordo di licenza e talenti da 20 miliardi di dollari firmato il 24 dicembre 2025. Si tratta di un'unità di elaborazione del linguaggio (LPU) basato su SRAM che Nvidia È integrato nella piattaforma Vera Rubin come coprocessore dedicato per la fase di decodifica. Il produttore ha annunciato una data di spedizione prevista per il terzo trimestre del 2026; la produzione sarà gestita da Samsung su un nodo a 4 nm. È anche il primo prodotto rack-scale di Nvidia progettato attorno a silicio non GPU, e il suo arrivo ha portato a una riorganizzazione dei componenti nella roadmap dell'azienda.

Il cuore del Groq 3 LPX è il chip LP30: 512 MB di SRAM per die e 150 TB/s di larghezza di banda di memoria per chip. Per dare un'idea, una GPU Rubin con 288 GB di HBM4 offre circa 22 TB/s; la differenza di ordine di grandezza non è una sfumatura, ma una scelta architetturale. Un rack LPX completo ospita 256 LPU, per un totale di 128 GB di SRAM e 40 PB/s di larghezza di banda aggregata. Nvidia afferma che, in combinazione con un Rubin NVL72, un rack LPX offre prestazioni fino a 35 volte superiori per megawatt rispetto a un NVL72 da solo, in modelli con trilioni di parametri, con un costo operativo target di 45 dollari per milione di token.

Groq 3 e la funzione in Rubin

Rendering del rack Rubin che illustra l'architettura del SuperPOD. — In occasione del GTC 2026, Nvidia ha illustrato la sua strategia Rubin SuperPOD, basata su sette chip. (Crediti immagine: Nvidia)

Nell'operazione pianificata, le GPU Rubin gestiscono la fase di precaricamento, elaborando contesti lunghi e calcoli ad alta densità, mentre le LPU Groq gestiscono la decodifica e la generazione dei token con latenza ridotta. Dynamo orchestra questa distribuzione eterogenea, assegnando i compiti in base alla dimensione del batch e al parallelismo per bilanciare prestazioni e consumo energetico.

Il design LPU originale di Groq dava priorità al determinismo: una pipeline VLIW (Very Long Instruction Word) con grandi banchi SRAM e un compilatore che pre-pianificava l'esecuzione, eliminando i cache miss e gli arresti imprevisti. Ciò ha portato a tassi di token per utente molto elevati, ma ha rivelato un problema di capacità: le generazioni precedenti con 230 MB di SRAM per chip richiedevano molti die per ospitare modelli di medie dimensioni e il architettura È nato con un orientamento verso le reti convoluzionali piuttosto che verso i moderni modelli linguistici.

L'LP30 attenua alcune di queste limitazioni con 512 MB di SRAM per die e una capacità di calcolo FP8 di 1,23 PFLOPS. Samsung ha incrementato la produzione, passando da circa 9.000 a circa 15.000 wafer, secondo gli annunci, dalla fase di campionatura alla produzione commerciale. Al GTC è stato inoltre annunciato che AWS implementerà le LPU Groq 3 insieme a oltre un milione di GPU Nvidia nell'ambito della sua espansione infrastrutturale.

Oltre alla LP30, Nvidia ha accennato a una roadmap di prodotto: una LP35 con supporto NVFP4, pensata per essere integrata nella generazione Rubin Ultra, e una LP40 prevista per il ciclo di architettura Feynman in un secondo momento.

Che cosa sta succedendo con Rubin CPX?

Al GTC, l'assenza del Rubin CPX, l'acceleratore di inferenza basato su GDDR7 che Nvidia Era stato annunciato a settembre 2025. Non compariva nelle slide principali né era presente sul palco. Tutto lascia intendere, pur in assenza di una conferma ufficiale completa, che il CPX sia stato rimosso dalla roadmap e sostituito nella gerarchia della piattaforma dal LPX Groq 3.

Inizialmente, CPX è stato concepito come un'alternativa a basso costo per accelerare la fase di contesto utilizzando GDDR7, sfruttandone la maggiore disponibilità a fronte della carenza di HBM. Tuttavia, le LPU di Groq eliminano la necessità di grandi moduli di memoria esterni e offrono una larghezza di banda per die significativamente superiore, un chiaro vantaggio in un mercato in cui l'offerta di HBM rimane limitata e la produzione di GDDR7 è ancora in fase di espansione. Sebbene le unità CPX già assegnate ai clienti possano continuare a essere consegnate, la preferenza strategica sembra ora spostarsi verso l'integrazione delle LPU.

Esiste anche un'analogia operativa con l'acquisizione di Mellanox nel 2019: tecnologie di startup che finiscono per formare nuovi livelli architetturali all'interno dell'infrastruttura di Nvidia — nel loro caso NVLink/InfiniBand — e, in questo scenario, Groq potrebbe diventare una componente strutturale simile all'interno dell'ecosistema Rubin.

Consolidamento del mercato dei chip di inferenza

L'accordo con Groq è stato l'elemento più visibile di un'ondata di consolidamento del 2025 incentrata sui chip per l'inferenza. Quell'anno, AMD acquisì il team di intelligenza artificiale di Untether, Nvidia acquisì le apparecchiature e la proprietà intellettuale di Enfabrica per oltre 900 milioni di dollari, Meta acquistò Rivos e ci furono trattative – poi abbandonate – tra Intel e SambaNova che portarono a un investimento e a una partnership da 350 milioni di dollari. Questa mossa riflette il fatto che competere in modo indipendente con l'ecosistema CUDA e la scalabilità di Nvidia presenta serie sfide economiche, anche quando la tecnologia ha un valore tecnico.

Lo schema ricorrente è l'assorbimento di talenti e tecnologie da parte dei principali attori del settore. Groq, ad esempio, prevedeva un fatturato di circa 500 milioni di euro entro il 2025, ma questa cifra non è stata sufficiente a mantenere la sua indipendenza di fronte alle pressioni strategiche dei produttori dominanti. Gli analisti sottolineano che gli accordi di licenza non esclusiva preservano l'apparenza di concorrenza, ma in pratica neutralizzano i rivali integrando la loro tecnologia nella piattaforma dell'acquirente.

Silicio personalizzato nei fornitori di servizi su larga scala

Diagramma della roadmap Meta MTIA per gli acceleratori di inferenza — Meta ha presentato la sua roadmap MTIA recentemente. (Crediti immagine: Meta)

Mentre le startup si integrano in aziende più grandi, i principali fornitori di servizi cloud stanno promuovendo le proprie pipeline di inferenza su silicio.

Meta ha annunciato le successive generazioni di MTIA, sviluppate con Broadcom: da MTIA 300, già in produzione per il ranking e la raccomandazione, a MTIA 500, orientata all'inferenza generativa e con implementazione su larga scala prevista per il 2027. Google mantiene la sua linea di TPU (Ironwood v7) con prestazioni in TFLOPS e pod di grandi dimensioni, e AWS continua a sviluppare Trainium e Inferentia, sebbene i dati interni fino al 2024 mostrassero un'adozione relativamente bassa rispetto alle GPU nell'infrastruttura di AWS.

Indagini e proiezioni di settore rafforzano la diversificazione: nel novembre 2025, Futurum Group ha classificato gli acceleratori XPU come il segmento in più rapida crescita nella spesa per i data center per il 2026, e TrendForce ha previsto un notevole aumento delle spedizioni di ASIC personalizzati da parte dei fornitori di servizi cloud per lo stesso anno.

La reazione di Nvidia è stata chiara: assicurarsi la presenza di chip non GPU all'interno della propria piattaforma prima che lo facciano terze parti. La Groq 3 LPU è la manifestazione tangibile di questa strategia; il futuro della Rubin CPX, tuttavia, rimane per ora incerto.

Condividi questo: