A LPU Groq 3 redefine o roteiro da Nvidia.

Groq 3 LPU e a mudança estratégica na Rubin

A apresentação do Groq 3 na GTC 2026 é mais do que um simples lançamento técnico: marca uma mudança estratégica na forma como a Nvidia estrutura sua plataforma de inferência. Mais do que um novo chip, ele redefine a hierarquia interna da Rubin e antecipa uma nova fase na competição por silício especializado.

Na GTC 2026, realizada em San Jose, a Nvidia apresentou o acelerador de inferência Groq 3: o primeiro chip fruto do seu acordo de licenciamento e aquisição de talentos de US$ 20 bilhões, assinado em 24 de dezembro de 2025. Trata-se de uma LPU (unidade de processamento de linguagem). baseado em SRAM que a Nvidia Está integrado à plataforma Vera Rubin como um coprocessador dedicado para a fase de decodificação. O fabricante anunciou uma previsão de entrega para o terceiro trimestre de 2026; a produção será feita pela Samsung em um processo de 4nm. É também o primeiro produto em escala de rack da Nvidia projetado com silício não relacionado a GPUs, e seu lançamento levou a uma reorganização de seus próprios componentes no planejamento de desenvolvimento.

O coração do Groq 3 LPX é o chip LP30: 512 MB de SRAM por die e 150 TB/s de largura de banda de memória por chip. Para colocar isso em perspectiva, uma GPU Rubin com 288 GB de HBM4 oferece cerca de 22 TB/s; a diferença de ordem de grandeza não é uma nuance, mas sim uma escolha arquitetônica. Um rack LPX completo abriga 256 LPUs, totalizando 128 GB de SRAM e 40 PB/s de largura de banda agregada. A Nvidia afirma que, combinado com um Rubin NVL72, um rack LPX oferece até 35 vezes mais desempenho por megawatt em comparação com um NVL72 sozinho em modelos com trilhões de parâmetros, com uma meta de custo operacional de US$ 45 por milhão de tokens.

Groq 3 e a função em Rubin

Renderização em rack Rubin ilustrando a arquitetura do SuperPOD. — A Nvidia apresentou sua estratégia Rubin SuperPOD de sete chips na GTC 2026. (Crédito da imagem: Nvidia)

Na operação planejada, as GPUs Rubin lidam com a fase de pré-preenchimento — processando contextos longos e cálculos de alta densidade — enquanto as LPUs Groq gerenciam a decodificação e a geração de tokens com latência reduzida. O Dynamo orquestra essa distribuição heterogênea, atribuindo tarefas com base no tamanho do lote e no paralelismo para equilibrar desempenho e custo de energia.

O projeto original da LPU da Groq priorizava o determinismo: um pipeline VLIW (Very Long Instruction Word) com grandes bancos de SRAM e um compilador que pré-planejava a execução, eliminando falhas de cache e paradas inesperadas. Isso resultou em taxas de tokens muito altas por usuário, mas revelou um problema de capacidade: as gerações anteriores com 230 MB de SRAM por chip exigiam muitos dies para acomodar modelos de tamanho médio, e o arquitetura Foi concebida com foco em redes convolucionais em vez de modelos de linguagem modernos.

O LP30 atenua algumas dessas limitações com 512 MB de SRAM por chip e 1,23 PFLOPS de capacidade de computação FP8. A Samsung aumentou a produção — de aproximadamente 9.000 para aproximadamente 15.000 wafers, de acordo com os anúncios — passando da produção de amostras para a fabricação comercial. Na GTC, também foi anunciado que a AWS implantará LPUs Groq 3 juntamente com mais de um milhão de GPUs da Nvidia como parte de sua expansão de infraestrutura.

Além do LP30, a Nvidia mencionou um roteiro de produtos: um LP35 com suporte a NVFP4, projetado para coincidir com a geração Rubin Ultra, e um LP40 planejado para o ciclo da arquitetura Feynman posteriormente.

O que está acontecendo com o Rubin CPX?

Na GTC, a ausência do Rubin CPX, o acelerador de inferência baseado em GDDR7 da Nvidia O anúncio havia sido feito em setembro de 2025. Não apareceu nos slides principais nem foi apresentado no palco. Tudo indica — embora não haja confirmação oficial completa — que o CPX foi removido do roadmap e substituído na hierarquia de plataformas pelo LPX Groq 3.

Inicialmente, o CPX foi concebido como uma alternativa de menor custo para acelerar a fase de contexto usando GDDR7, aproveitando sua maior disponibilidade diante da escassez de HBM. No entanto, as LPUs da Groq eliminam a necessidade de grandes módulos de memória externa e oferecem largura de banda significativamente maior por chip — uma clara vantagem em um mercado onde o fornecimento de HBM permanece restrito e a produção de GDDR7 ainda está em fase de expansão. Embora as unidades CPX já encomendadas aos clientes possam continuar sendo entregues, a preferência estratégica agora parece estar se voltando para a integração de LPUs.

Existe também uma analogia operacional com a aquisição da Mellanox em 2019: tecnologias de startups que acabam formando novas camadas arquitetônicas dentro da infraestrutura da Nvidia — no caso deles, NVLink/InfiniBand — e, nesse cenário, a Groq poderia se tornar um componente estrutural semelhante dentro do ecossistema Rubin.

Consolidação do mercado de chips de inferência

O acordo com a Groq foi a peça mais visível de uma onda de consolidação de 2025 focada em chips de inferência. Naquele ano, a AMD adquiriu a equipe da Untether AI, a Nvidia adquiriu os equipamentos e a propriedade intelectual da Enfabrica por mais de US$ 900 milhões, a Meta comprou a Rivos e houve negociações — que acabaram sendo abandonadas — entre a Intel e a SambaNova, que resultaram em um investimento e parceria de US$ 350 milhões. Essa movimentação reflete o fato de que competir de forma independente contra o ecossistema e a escala do CUDA da Nvidia apresenta sérios desafios econômicos, mesmo quando a tecnologia tem mérito técnico.

O padrão recorrente é a absorção de talentos e tecnologia pelos principais players. A Groq, por exemplo, esperava faturar cerca de € 500 milhões até 2025, mas esse valor não foi suficiente para manter sua independência diante da pressão estratégica dos fabricantes dominantes. Analistas apontam que os contratos de licenciamento não exclusivos preservam a aparência de concorrência, mas, na prática, neutralizam os rivais ao integrar sua tecnologia à plataforma do comprador.

Silício personalizado em hiperescaladores

Diagrama do roteiro Meta MTIA para aceleradores de inferência — A Meta apresentou seu roteiro MTIA. recentemente. (Crédito da imagem: Meta)

Enquanto as startups se integram a empresas maiores, os principais provedores de nuvem estão impulsionando seus próprios pipelines de inferência de silício.

A Meta anunciou gerações sucessivas do MTIA, desenvolvidas em parceria com a Broadcom: do MTIA 300 — já em produção para classificação e recomendação — ao MTIA 500, voltado para inferência generativa e com implantação em massa prevista para 2027. O Google mantém sua linha de TPUs (Ironwood v7) com números de TFLOPS e pods de grande escala, e a AWS continua desenvolvendo o Trainium e o Inferentia, embora dados internos até 2024 mostrem uma adoção relativamente baixa em comparação com as GPUs na própria infraestrutura da AWS.

Pesquisas e projeções do setor reforçam a diversificação: em novembro de 2025, o Futurum Group classificou os aceleradores XPU como o segmento de crescimento mais rápido em gastos com data centers para 2026, e a TrendForce projetou um aumento notável nas remessas de ASICs personalizados por provedores de nuvem para o mesmo ano.

A reação da Nvidia foi clara: garantir a presença de silício não relacionado a GPUs em sua plataforma antes que terceiros o façam. O Groq 3 LPU é a manifestação tangível dessa estratégia; o futuro do Rubin CPX, no entanto, permanece incerto por enquanto.

Compartilhe isto: