Groq 3 LPUとRubinの戦略的転換
GTC 2026でのGroq 3の発表は、単なる技術的な発表にとどまらず、NVIDIAが推論プラットフォームを構築する上での戦略的な転換点となる。単なる新チップの発表にとどまらず、ルービン氏率いるNVIDIAの組織構造を再定義し、特殊用途向けシリコン市場における競争の新たな局面を予感させるものだ。
サンノゼで開催されたGTC 2026において、NvidiaはGroq 3推論アクセラレータを発表した。これは、2025年12月24日に締結された200億ドル規模のライセンスおよび人材契約から生まれた最初のチップであり、LPU(言語処理ユニット)である。 NvidiaのSRAMに基づく これは、デコード処理専用のコプロセッサとしてVera Rubinプラットフォームに統合されています。メーカーは2026年第3四半期を出荷予定日と発表しており、サムスンが4nmプロセスで製造を担当します。また、これはNVIDIAにとってGPU以外のシリコンをベースに設計された初のラック規模製品であり、その登場により、NVIDIAのロードマップにおける自社コンポーネントの順序変更が促されました。
Groq 3 LPX の中核は LP30 チップで、ダイあたり 512 MB の SRAM とチップあたり 150 TB/s のメモリ帯域幅を備えています。これを比較すると、288 GB の HBM4 を搭載した Rubin GPU は約 22 TB/s です。桁違いの差は些細なことではなく、アーキテクチャ上の選択です。フル LPX ラックには 256 個の LPU が搭載され、合計 128 GB の SRAM と 40 PB/s の総帯域幅を実現しています。Nvidia は、Rubin NVL72 と組み合わせることで、LPX ラックは 1 兆パラメータのモデルにおいて NVL72 単体と比較してメガワットあたりのパフォーマンスが最大 35 倍向上し、運用コスト目標は 100 万トークンあたり 45 ドルになると主張しています。
Groq 3 と Rubin の関数

計画された運用では、Rubin GPUがプリフィルフェーズ(長いコンテキストの処理と高密度計算)を担当し、Groq LPUが低遅延でデコードとトークン生成を管理します。Dynamoはこの異種分散をオーケストレーションし、バッチサイズと並列処理に基づいてタスクを割り当てることで、パフォーマンスとエネルギーコストのバランスを取ります。
GroqのオリジナルのLPU設計は決定論を優先しました。大容量SRAMバンクを備えたVLIW(超長命令語)パイプラインと、実行を事前に計画するコンパイラにより、キャッシュミスや予期しない停止を排除しました。これにより、ユーザーあたりのトークンレートは非常に高くなりましたが、容量の問題が明らかになりました。チップあたり230MBのSRAMを搭載した以前の世代では、中規模モデルに対応するために多くのダイが必要でした。 建築 それは、現代的な言語モデルではなく、畳み込みニューラルネットワークに重点を置いた設計思想に基づいて誕生した。
LP30は、ダイあたり512MBのSRAMと1.23PFLOPSのFP8演算能力により、これらの制限の一部を軽減します。サムスンは、サンプル生産から商用生産に移行することで、生産規模を約9,000枚から約15,000枚のウェハーに拡大したと発表しました。GTCでは、AWSがインフラストラクチャ拡張の一環として、100万個以上のNvidia GPUとともにGroq 3 LPUを導入することも発表されました。
NvidiaはLP30以外にも、製品ロードマップについて言及した。Rubin Ultra世代に合わせたNVFP4対応のLP35と、その後のFeynmanアーキテクチャサイクル向けに計画されているLP40である。
Rubin CPXはどうなっているのですか?
GTCでは、Rubin CPX、つまり推論アクセラレータが存在しないことが、 NvidiaのGDDR7 2025年9月に発表されたこの製品は、メインのスライドにもステージ上にも登場しなかった。公式な確認はまだないものの、あらゆる状況から見て、CPXはロードマップから削除され、プラットフォームの階層構造においてLPX Groq 3に置き換えられたと考えられる。
CPXは当初、HBM不足の状況下で入手しやすいGDDR7を活用し、コンテキストフェーズを高速化する低コストな代替手段として構想されました。しかし、GroqのLPUは大型の外部メモリモジュールを不要にし、ダイあたりの帯域幅を大幅に向上させます。これは、HBMの供給が依然として逼迫し、GDDR7の生産規模が拡大途上にある市場において、明確な優位性となります。既に顧客に納入済みのCPXユニットは引き続き出荷される可能性がありますが、戦略的な優先順位はLPU統合へと移行しつつあるようです。
2019年のMellanox買収との運用上の類似点もある。スタートアップ企業の技術が最終的にNvidiaのインフラストラクチャ内に新たなアーキテクチャ層(Mellanoxの場合はNVLink/InfiniBand)を形成するという点で、このシナリオではGroqもRubinエコシステム内で同様の構造的構成要素となる可能性がある。
推論チップ市場の統合
Groqとの契約は、推論チップに焦点を当てた2025年の統合の波の中で最も目立つ出来事だった。同年、AMDはUntether AIチームを買収し、NvidiaはEnfabricaの設備とIPを9億ドル以上で買収、MetaはRivosを買収した。また、IntelとSambaNovaの間では、最終的に破談となったものの、3億5000万ドルの投資と提携が実現した。この動きは、たとえ技術的に優れた技術であっても、NvidiaのCUDAエコシステムと規模に単独で対抗することは、経済的に非常に困難であることを反映している。
繰り返し見られるパターンは、大手企業による人材と技術の吸収である。例えば、Groqは2025年までに約5億ユーロの収益を見込んでいたが、その数字では、支配的なメーカーからの戦略的圧力に直面して独立性を維持するには不十分だった。アナリストは、非独占的なライセンス契約は競争の体裁を保つものの、実際には競合他社の技術を買い手のプラットフォームに統合することで、競合他社を無力化していると指摘している。
ハイパースケーラーにおけるカスタムシリコン

スタートアップ企業が大企業に統合される一方で、大手クラウドプロバイダーは独自のシリコン推論パイプラインを推進している。
Metaは、Broadcomと共同開発したMTIAの次世代版を発表しました。ランキングとレコメンデーション向けに既に実運用されているMTIA 300から、生成推論向けで2027年の大規模展開を予定しているMTIA 500までです。GoogleはTFLOPSの数値と大規模なポッドを備えたTPUライン(Ironwood v7)を維持しており、AWSはTrainiumとInferentiaの開発を継続していますが、2024年までの社内データでは、AWS自身のインフラストラクチャにおけるGPUと比較して採用率は比較的低いことが示されています。
業界調査や予測は多様化を後押ししている。2025年11月、Futurum GroupはXPUアクセラレータを2026年のデータセンター支出の中で最も成長率の高いセグメントとしてランク付けし、TrendForceは同年、クラウドプロバイダーによるカスタムASICの出荷量が著しく増加すると予測した。
Nvidiaの対応は明確だ。サードパーティに先駆けて、自社プラットフォーム内に非GPUシリコンを搭載することを確実にする、というものだ。Groq 3 LPUはその戦略を具体的に体現した製品だが、Rubin CPXの将来は今のところ不透明だ。




















