Groq 3 LPU Redefine La Hoja De Ruta De Nvidia

Groq 3 LPU y el giro estratégico en Rubin

La presentación del Groq 3 en GTC 2026 no es solo un lanzamiento técnico: marca un giro estratégico en cómo Nvidia estructura su plataforma de inferencia. Más que un nuevo chip, redefine la jerarquía interna de Rubin y anticipa una fase distinta en la competencia por el silicio especializado.

En GTC 2026, celebrado en San José, Nvidia presentó el acelerador de inferencia Groq 3: el primer chip que surge de su acuerdo de licencia y talento valorado en 20.000 millones de dólares firmado el 24 de diciembre de 2025. Se trata de un LPU (language processing unit) basado en SRAM que Nvidia inserta en la plataforma Vera Rubin como coprocesador dedicado a la fase de decodificación. El fabricante anunció un envío previsto para el tercer trimestre de 2026; la producción correrá a cargo de Samsung en un nodo de 4 nm. Es además el primer producto a escala de rack de Nvidia diseñado alrededor de silicio no GPU, y su llegada ha provocado la reordenación de piezas propias en la hoja de ruta.

El corazón del Groq 3 LPX es el chip LP30: 512 MB de SRAM por die y 150 TB/s de ancho de banda de memoria por chip. Para poner esto en perspectiva, una GPU Rubin con 288 GB de HBM4 ofrece alrededor de 22 TB/s; la diferencia de orden de magnitud no es un matiz sino una elección arquitectural. Un rack LPX completo agrupa 256 LPUs, sumando 128 GB de SRAM y 40 PB/s de ancho de banda agregado. Nvidia afirma que, combinado con un Rubin NVL72, un rack LPX ofrece hasta 35 veces más rendimiento por megavatio frente a un NVL72 solo en modelos de billones de parámetros, con un objetivo de coste operativo de 45 dólares por cada millón de tokens.

Groq 3 y la función en Rubin

Render de racks Rubin que ilustra la arquitectura del SuperPOD — Nvidia describió su estrategia Rubin SuperPOD de siete chips en GTC 2026. (Image credit: Nvidia)

En la operación prevista, las GPUs Rubin ejecutan la fase de prefill —procesamiento de contextos largos y cálculos de alta densidad— mientras que las LPUs de Groq gestionan la decodificación y la generación de tokens con latencias reducidas. La orquestación de este reparto heterogéneo corre a cargo de Dynamo, que asigna tareas según tamaño de lote y paralelismo, buscando equilibrar rendimiento y coste energético.

El diseño original de las LPUs de Groq priorizaba determinismo: una tubería VLIW (Very Long Instruction Word) con grandes bancos de SRAM y un compilador que preplanificaba la ejecución, eliminando fallos de caché y paradas imprevistas. Eso dio token rates por usuario muy altos, pero reveló un problema de capacidad: generaciones previas con 230 MB de SRAM por chip exigían muchos dies para alojar modelos medianos, y la arquitectura nació orientada a redes convolucionales más que a modelos de lenguaje modernos.

El LP30 mitiga parte de esas limitaciones con 512 MB de SRAM por die y 1,23 PFLOPS en FP8 de capacidad de cómputo. Samsung ha escalado la producción —según los anuncios, del orden de ~9.000 a ~15.000 obleas— al pasar de muestras a fabricación comercial. En GTC también se anunció que AWS desplegará LPUs Groq 3 junto a más de un millón de GPUs Nvidia como parte de su expansión de infraestructuras.

Más allá del LP30, Nvidia mencionó una hoja de ruta de producto: un LP35 con soporte NVFP4 pensado para alinearse con la generación Rubin Ultra, y un LP40 previsto para el ciclo de arquitectura Feynman posteriormente.

¿Qué sucede con Rubin CPX?

En GTC llamó la atención la ausencia del Rubin CPX, el acelerador de inferencia basado en GDDR7 que Nvidia había anunciado en septiembre de 2025. No apareció en las diapositivas principales ni tuvo presencia en el escenario. Todo indica —sin confirmación oficial completa— que el CPX ha sido eliminado de la hoja de ruta y sustituido en la jerarquía de la plataforma por el LPX Groq 3.

El CPX se había planteado como una alternativa de coste más bajo para acelerar la fase de contexto usando GDDR7, aprovechando mayor disponibilidad frente a la escasez de HBM. Sin embargo, las LPUs de Groq prescinden de grandes memorias externas y ofrecen un ancho de banda muy superior por die, una ventaja clara en un mercado donde la provisión de HBM sigue ajustada y la producción de GDDR7 aún escala. Es posible que unidades CPX ya comprometidas a clientes sigan entregándose, pero la preferencia estratégica ahora parece inclinarse hacia la integración de las LPUs.

Hay además una analogía operativa con la adquisición de Mellanox en 2019: tecnologías de startups que acaban formando nuevas capas arquitectónicas dentro de la infraestructura de Nvidia —en su caso NVLink/InfiniBand— y, en este escenario, Groq podría convertirse en un componente estructural similar dentro del ecosistema Rubin.

Consolidación del mercado de chips de inferencia

El acuerdo con Groq fue la pieza más visible de una ola de consolidación en 2025 centrada en chips de inferencia. En ese año, AMD incorporó al equipo de Untether AI, Nvidia adquirió equipo e IP de Enfabrica por más de 900 millones, Meta compró Rivos y hubo conversaciones —finalmente truncadas— entre Intel y SambaNova que terminaron en una inversión y asociación de 350 millones. El movimiento refleja que competir de forma independiente contra el ecosistema CUDA y la escala de Nvidia plantea retos económicos severos, incluso cuando la tecnología tiene mérito técnico.

El patrón recurrente es la absorción de talento y tecnología por parte de los grandes actores. Groq, por ejemplo, esperaba unos 500 millones en ingresos para 2025, pero esa cifra no bastó para sostener la independencia frente a la presión estratégica de los fabricantes dominantes. Analistas apuntan que los acuerdos con licencias no exclusivas preservan la apariencia de competencia, pero en la práctica neutralizan rivales al integrar su tecnología en la plataforma del comprador.

Silicio a medida en los hyperscalers

Diagrama de la hoja de ruta MTIA de Meta para aceleradores de inferencia — Meta presentó su hoja de ruta MTIA recientemente. (Image credit: Meta)

Mientras las startups se integran en empresas mayores, los grandes proveedores de nube impulsan sus propias líneas de silicio de inferencia.

Meta anunció sucesivas generaciones MTIA, desarrolladas con Broadcom: desde MTIA 300 —ya en producción para ranking y recomendación— hasta MTIA 500, orientadas a la inferencia generativa y previstas para despliegue masivo en 2027. Google mantiene su línea TPU (Ironwood v7) con cifras de TFLOPS y pods a gran escala, y AWS sigue desarrollando Trainium e Inferentia, aunque los datos internos hasta 2024 mostraban una adopción relativamente reducida frente a las GPUs en la propia infraestructura de AWS.

Encuestas y proyecciones del sector refuerzan la diversificación: en noviembre de 2025, Futurum Group situó a los aceleradores XPU como el segmento con mayor crecimiento en gasto de centros de datos para 2026, y TrendForce proyectó un aumento notable en los envíos de ASICs personalizados por parte de proveedores de nube para ese mismo año.

La reacción de Nvidia ha sido clara: asegurar la presencia de silicio no GPU dentro de su plataforma antes de que lo hagan terceros. El Groq 3 LPU es la manifestación tangible de esa estrategia; la continuidad del Rubin CPX, en cambio, queda en entredicho por ahora.

Comparte esto: