Groq 3 LPU 重新定义了英伟达的路线图

Groq 3 LPU 和 Rubin 的战略转变

在2026年GTC大会上发布的Groq 3不仅仅是一次技术发布：它标志着英伟达推理平台架构的战略转变。它不仅仅是一款新芯片，更重新定义了鲁宾设计中心内部的架构，并预示着专用芯片竞争进入了一个全新的阶段。

在圣何塞举行的 GTC 2026 大会上，英伟达发布了 Groq 3 推理加速器：这是该公司于 2025 年 12 月 24 日签署的价值 200 亿美元的授权和人才协议中推出的首款芯片。它是一款 LPU（语言处理单元）。基于英伟达的SRAM 它作为专用的协处理器集成到 Vera Rubin 平台中，用于解码阶段。制造商宣布预计将于 2026 年第三季度发货；生产将由三星采用 4nm 工艺制程。这也是英伟达首款基于非 GPU 芯片设计的机架级产品，它的问世促使英伟达重新调整了其产品路线图中的组件顺序。

Groq 3 LPX 的核心是 LP30 芯片：每个芯片拥有 512 MB SRAM 和 150 TB/s 的内存带宽。为了便于理解，配备 288 GB HBM4 显存的 Rubin GPU 的带宽约为 22 TB/s；数量级上的差异并非细微差别，而是架构选择。一个完整的 LPX 机架包含 256 个 LPU，总计 128 GB SRAM 和 40 PB/s 的总带宽。Nvidia 声称，在万亿参数模型中，LPX 机架与 Rubin NVL72 结合使用时，每兆瓦的性能是单独使用 NVL72 的 35 倍，运营成本目标为每百万个代币 45 美元。

Groq 3 和 Rubin 中的函数

Rubin机架渲染图展示了SuperPOD架构 — 英伟达在 2026 年 GTC 大会上概述了其七芯片 Rubin SuperPOD 战略。（图片来源：英伟达）

在计划的操作中，Rubin GPU 负责预填充阶段——处理长上下文和高密度计算——而 Groq LPU 则负责解码和令牌生成，从而降低延迟。Dynamo 负责协调这种异构分布，根据批处理大小和并行度分配任务，以平衡性能和能耗。

Groq 最初的 LPU 设计优先考虑确定性：采用 VLIW（超长指令字）流水线，配备大容量 SRAM 存储体和一个预先规划执行的编译器，从而消除缓存未命中和意外停机。这使得每个用户的令牌获取率非常高，但也暴露出容量问题：前几代产品每个芯片配备 230 MB SRAM，需要多个芯片才能容纳中等尺寸的型号，而建筑学它诞生之初就面向卷积神经网络，而不是现代语言模型。

LP30芯片通过每芯片512MB的SRAM和1.23 PFLOPS的FP8计算能力，缓解了部分上述限制。三星已将LP30的产量从约9000片晶圆提升至约15000片（根据官方公告），实现了从样品生产到商业化生产的全面转型。在GTC大会上，AWS还宣布将在其基础设施扩展计划中部署Groq 3 LPU以及超过一百万个英伟达GPU。

除了 LP30 之外，Nvidia 还提到了一个产品路线图：一款支持 NVFP4 的 LP35，旨在与 Rubin Ultra 系列保持一致；以及一款计划在稍后的 Feynman 架构周期中推出的 LP40。

Rubin CPX 发生了什么事？

在GTC大会上，Rubin CPX（基于……的推理加速器）的缺席令人遗憾。英伟达的 GDDR7 该产品于2025年9月发布，但并未出现在主要幻灯片或发布会上。尽管尚未得到官方的完全确认，但种种迹象表明，CPX已从产品路线图中移除，并在平台层级结构中被LPX Groq 3所取代。

CPX 最初的设计理念是利用 GDDR7 内存的更高可用性，在 HBM 内存短缺的情况下，提供一种成本更低的替代方案来加速上下文阶段的开发。然而，Groq 的 LPU 芯片无需大型外部内存模块，并且每个芯片的带宽显著更高——这在 HBM 内存供应依然紧张、GDDR7 芯片产能仍在提升的市场中，无疑是一项明显的优势。虽然已交付给客户的 CPX 芯片可能会继续交付，但目前的战略重点似乎正在转向 LPU 集成。

这与 2019 年收购 Mellanox 的情况在操作上也有相似之处：初创技术最终在英伟达的基础设施中形成新的架构层——在他们的案例中是 NVLink/InfiniBand——在这种情况下，Groq 可能会成为 Rubin 生态系统中类似的结构组件。

推理芯片市场的整合

与 Groq 的交易是 2025 年推理芯片领域整合浪潮中最引人注目的一环。同年，AMD 收购了 Untether AI 团队，英伟达斥资超过 9 亿美元收购了 Enfabrica 的设备和知识产权，Meta 收购了 Rivos，英特尔和 SambaNova 之间也曾进行过谈判——尽管最终未能达成，但双方曾计划进行 3.5 亿美元的投资和合作。这一举动反映出，即使技术本身具有优势，独立与英伟达的 CUDA 生态系统及其规模竞争也会面临严峻的经济挑战。

反复出现的模式是，大型企业不断吸收人才和技术。例如，Groq 曾预计到 2025 年营收将达到 5 亿欧元左右，但面对主导制造商的战略压力，这一数字不足以使其保持独立性。分析人士指出，非独家许可协议表面上维持了竞争，但实际上却通过将竞争对手的技术整合到买方平台中而削弱了竞争对手的作用。

超大规模数据中心中的定制硅

Meta MTIA推理加速器路线图 — Meta公司展示了其MTIA路线图最近。（图片来源：Meta）

当初创企业纷纷并入大型公司时，大型云服务提供商正在大力推进自己的硅推理管道。

Meta宣布推出与博通合作开发的MTIA系列多代产品：从已投入生产用于排名和推荐的MTIA 300，到面向生成式推理并计划于2027年大规模部署的MTIA 500。谷歌继续推进其TPU产品线（Ironwood v7），该系列产品拥有TFLOPS的性能和大规模的Pod。AWS也在持续开发Trainium和Inferentia，但截至2024年的内部数据显示，与AWS自身基础设施中的GPU相比，它们的采用率相对较低。

行业调查和预测强化了多元化趋势：2025 年 11 月，Futurum Group 将 XPU 加速器评为 2026 年数据中心支出中增长最快的细分市场，而 TrendForce 预测，同年云提供商定制 ASIC 的出货量将显著增长。

英伟达的回应很明确：在第三方之前，确保非GPU芯片在其平台中的存在。Groq 3 LPU正是这一战略的切实体现；然而，Rubin CPX的未来目前仍不明朗。

分享這個：