Groq 3 LPU et le changement stratégique chez Rubin
La présentation du Groq 3 à la GTC 2026 représente bien plus qu'un simple lancement technique : elle marque un tournant stratégique dans la manière dont Nvidia structure sa plateforme d'inférence. Plus qu'une simple nouvelle puce, elle redéfinit la hiérarchie interne de Rubin et annonce une nouvelle phase dans la course aux semi-conducteurs spécialisés.
Lors de la GTC 2026, qui s'est tenue à San Jose, Nvidia a dévoilé l'accélérateur d'inférence Groq 3 : la première puce issue de son accord de licence et de recrutement de talents de 20 milliards de dollars signé le 24 décembre 2025. Il s'agit d'une unité de traitement du langage (LPU). basé sur la SRAM que Nvidia Il est intégré à la plateforme Vera Rubin en tant que coprocesseur dédié à la phase de décodage. Le fabricant a annoncé une date de livraison prévue pour le troisième trimestre 2026 ; la production sera assurée par Samsung avec une gravure en 4 nm. Il s’agit également du premier produit à l’échelle d’un rack conçu par Nvidia autour d’une puce non-GPU, et son arrivée a entraîné une réorganisation de sa feuille de route en matière de composants.
Le cœur du Groq 3 LPX est la puce LP30 : 512 Mo de SRAM par puce et une bande passante mémoire de 150 To/s par puce. À titre de comparaison, un GPU Rubin doté de 288 Go de HBM4 offre environ 22 To/s ; cette différence d’ordre de grandeur n’est pas une nuance, mais un choix architectural. Un rack LPX complet embarque 256 LPU, totalisant 128 Go de SRAM et une bande passante agrégée de 40 Po/s. Nvidia affirme qu’associé à un Rubin NVL72, un rack LPX offre des performances jusqu’à 35 fois supérieures par mégawatt à celles d’un NVL72 seul, selon des modèles à mille milliards de paramètres, avec un objectif de coût d’exploitation de 45 $ par million de jetons.
Groq 3 et la fonction dans Rubin

Dans le fonctionnement prévu, les GPU Rubin prennent en charge la phase de préremplissage (traitement des contextes longs et des calculs haute densité), tandis que les LPU Groq gèrent le décodage et la génération de jetons avec une latence réduite. Dynamo orchestre cette distribution hétérogène en attribuant les tâches en fonction de la taille des lots et du parallélisme afin d'optimiser les performances et la consommation énergétique.
La conception LPU originale de Groq privilégiait le déterminisme : un pipeline VLIW (Very Long Instruction Word) avec de grandes banques de SRAM et un compilateur qui pré-planifiait l’exécution, éliminant ainsi les défauts de cache et les arrêts inattendus. Il en résultait des débits de jetons par utilisateur très élevés, mais révélait un problème de capacité : les générations précédentes, avec 230 Mo de SRAM par puce, nécessitaient de nombreuses puces pour accueillir les modèles de taille moyenne. architecture Il a été conçu dès le départ avec une orientation vers les réseaux convolutionnels plutôt que vers les modèles de langage modernes.
Le LP30 atténue certaines de ces limitations grâce à ses 512 Mo de SRAM par puce et sa capacité de calcul FP8 de 1,23 PFLOPS. Samsung a augmenté sa production – d'environ 9 000 à environ 15 000 plaquettes, selon les annonces – en passant de la production de prototypes à la fabrication commerciale. Lors de la GTC, il a également été annoncé qu'AWS déploierait des LPU Groq 3 aux côtés de plus d'un million de GPU Nvidia dans le cadre de l'extension de son infrastructure.
Au-delà de la LP30, Nvidia a mentionné une feuille de route produit : une LP35 avec prise en charge NVFP4 destinée à s’aligner sur la génération Rubin Ultra, et une LP40 prévue pour le cycle d’architecture Feynman ultérieurement.
Que se passe-t-il avec Rubin CPX ?
Au GTC, l'absence du Rubin CPX, l'accélérateur d'inférence basé sur GDDR7 de Nvidia Annoncée en septembre 2025, la CPX n'apparaissait ni dans les diapositives principales ni sur scène. Tout porte à croire, sans confirmation officielle, que la CPX a été retirée de la feuille de route et remplacée dans la hiérarchie des plateformes par la LPX Groq 3.
Le CPX a été initialement conçu comme une alternative moins coûteuse pour accélérer la phase de contexte grâce à la GDDR7, tirant parti de sa plus grande disponibilité face à la pénurie de HBM. Cependant, les LPU de Groq éliminent le besoin de modules de mémoire externes de grande taille et offrent une bande passante par puce nettement supérieure, un avantage indéniable sur un marché où l'approvisionnement en HBM reste tendu et où la production de GDDR7 est encore en phase d'augmentation. Bien que les unités CPX déjà commandées puissent continuer à être livrées, la préférence stratégique semble désormais s'orienter vers l'intégration des LPU.
Il existe également une analogie opérationnelle avec l'acquisition de Mellanox en 2019 : des technologies de start-up qui finissent par former de nouvelles couches architecturales au sein de l'infrastructure de Nvidia — dans leur cas NVLink/InfiniBand — et, dans ce scénario, Groq pourrait devenir un composant structurel similaire au sein de l'écosystème Rubin.
Consolidation du marché des puces d'inférence
L'accord avec Groq a été l'élément le plus visible d'une vague de consolidation en 2025 axée sur les puces d'inférence. Cette année-là, AMD a acquis l'équipe d'IA d'Untether, Nvidia a racheté les équipements et la propriété intellectuelle d'Enfabrica pour plus de 900 millions de dollars, Meta a acquis Rivos, et des discussions – finalement abandonnées – ont eu lieu entre Intel et SambaNova, qui devaient aboutir à un investissement et un partenariat de 350 millions de dollars. Cette situation illustre le fait que concurrencer directement l'écosystème et l'envergure de Nvidia en matière de CUDA représente un défi économique considérable, même lorsque la technologie présente un réel potentiel technique.
Le phénomène récurrent est l'absorption des talents et des technologies par les acteurs majeurs. Groq, par exemple, prévoyait un chiffre d'affaires d'environ 500 millions d'euros d'ici 2025, mais ce montant s'est avéré insuffisant pour préserver son indépendance face à la pression stratégique des fabricants dominants. Les analystes soulignent que les accords de licence non exclusifs maintiennent une apparence de concurrence, mais neutralisent en réalité les concurrents en intégrant leur technologie à la plateforme de l'acheteur.
Silicium sur mesure dans les hyperscalers

Tandis que les startups s'intègrent aux grandes entreprises, les principaux fournisseurs de cloud développent leurs propres pipelines d'inférence sur silicium.
Meta a annoncé les générations successives de MTIA, développées avec Broadcom : de MTIA 300 — déjà en production pour le classement et la recommandation — à MTIA 500, orientée vers l’inférence générative et dont le déploiement à grande échelle est prévu pour 2027. Google maintient sa gamme de TPU (Ironwood v7) avec des chiffres de TFLOPS et des pods à grande échelle, et AWS continue de développer Trainium et Inferentia, bien que les données internes jusqu’en 2024 aient montré une adoption relativement faible par rapport aux GPU dans la propre infrastructure d’AWS.
Les études et projections sectorielles renforcent la diversification : en novembre 2025, Futurum Group a classé les accélérateurs XPU comme le segment à la croissance la plus rapide des dépenses des centres de données pour 2026, et TrendForce a projeté une augmentation notable des livraisons d’ASIC personnalisés par les fournisseurs de cloud pour cette même année.
La réaction de Nvidia a été claire : s’assurer la présence de puces non-GPU au sein de sa plateforme avant que des tiers ne le fassent. Le Groq 3 LPU est la concrétisation de cette stratégie ; l’avenir du Rubin CPX, en revanche, reste incertain pour le moment.




















