Groq 3 LPU가 엔비디아의 로드맵을 재정의합니다

Groq 3 LPU와 Rubin의 전략적 변화

GTC 2026에서 공개된 Groq 3는 단순한 기술 발표를 넘어 엔비디아의 추론 플랫폼 구조에 대한 전략적 전환점을 의미합니다. 이는 새로운 칩 출시를 넘어 루빈의 내부 위계질서를 재정립하고, 특수 실리콘 경쟁의 새로운 국면을 예고하는 것입니다.

샌호세에서 열린 GTC 2026에서 엔비디아는 Groq 3 추론 가속기를 공개했습니다. 이는 2025년 12월 24일에 체결된 200억 달러 규모의 라이선스 및 인재 확보 계약의 결과물로 나온 첫 번째 칩입니다. Groq 3는 LPU(언어 처리 장치)입니다. 엔비디아의 SRAM 기반 이 칩은 디코딩 단계 전용 코프로세서로 Vera Rubin 플랫폼에 통합됩니다. 제조사는 2026년 3분기 출하를 예상한다고 발표했으며, 삼성에서 4nm 공정으로 생산할 예정입니다. 또한, 이 제품은 엔비디아가 GPU가 아닌 실리콘을 기반으로 설계한 최초의 랙 스케일 제품이며, 이 제품의 출시로 인해 엔비디아는 로드맵에서 자체 부품 순서를 재조정했습니다.

Groq 3 LPX의 핵심은 LP30 칩입니다. 이 칩은 다이당 512MB의 SRAM과 칩당 150TB/s의 메모리 대역폭을 제공합니다. 비교를 위해 설명하자면, 288GB의 HBM4를 탑재한 Rubin GPU는 약 22TB/s의 대역폭을 제공합니다. 이처럼 성능 차이가 큰 것은 단순한 차이가 아니라 아키텍처 설계의 핵심입니다. LPX 랙에는 총 256개의 LPU가 탑재되어 128GB의 SRAM과 40PB/s의 총 대역폭을 제공합니다. 엔비디아는 Rubin NVL72와 결합된 LPX 랙이 수조 개의 파라미터를 사용하는 모델에서 NVL72 단독 사용 대비 메가와트당 최대 35배의 성능을 제공하며, 백만 토큰당 운영 비용 목표치는 45달러라고 주장합니다.

Groq 3와 Rubin의 함수

SuperPOD 아키텍처를 보여주는 Rubin 랙 렌더링 — 엔비디아는 GTC 2026에서 7개 칩으로 구성된 루빈 슈퍼팟 전략을 발표했습니다. (이미지 출처: 엔비디아)

계획된 운영에서 Rubin GPU는 긴 컨텍스트와 고밀도 계산을 처리하는 사전 채우기 단계를 담당하고, Groq LPU는 지연 시간을 줄여 디코딩 및 토큰 생성을 관리합니다. Dynamo는 배치 크기와 병렬성을 기반으로 작업을 할당하여 성능과 에너지 비용의 균형을 유지함으로써 이러한 이기종 분산을 조율합니다.

Groq의 초기 LPU 설계는 결정성을 최우선으로 고려했습니다. 대용량 SRAM 뱅크를 갖춘 VLIW(Very Long Instruction Word) 파이프라인과 실행을 미리 계획하는 컴파일러를 통해 캐시 미스와 예기치 않은 중단을 방지했습니다. 그 결과 사용자당 토큰 처리 속도가 매우 높았지만, 용량 문제가 드러났습니다. 칩당 230MB의 SRAM을 사용했던 이전 세대는 중간 크기 모델을 수용하기 위해 여러 개의 다이가 필요했습니다. 건축학 이 시스템은 최신 언어 모델보다는 컨볼루션 네트워크에 초점을 맞춰 개발되었습니다.

LP30은 다이당 512MB의 SRAM과 1.23 PFLOPS의 FP8 연산 능력을 통해 이러한 한계를 일부 완화합니다. 삼성은 샘플 생산에서 상용 생산으로 전환하면서 생산량을 약 9,000개에서 약 15,000개 웨이퍼로 확대했다고 발표했습니다. GTC에서는 AWS가 인프라 확장의 일환으로 100만 개 이상의 엔비디아 GPU와 함께 Groq 3 LPU를 배포할 계획이라고도 발표했습니다.

엔비디아는 LP30 외에도 제품 로드맵을 언급했는데, 루빈 울트라 세대에 맞춰 NVFP4를 지원하는 LP35와 이후 파인만 아키텍처 주기에 맞춰 계획된 LP40이 그것입니다.

Rubin CPX는 어떻게 되고 있나요?

GTC에서 Rubin CPX가 없다는 것은 추론 가속기를 기반으로 하는 기능에 문제가 있다는 것을 의미합니다. 엔비디아의 GDDR7 2025년 9월에 발표되었지만, 주요 슬라이드에도 등장하지 않았고 발표 무대에도 나오지 않았습니다. 공식적인 확정 발표는 없지만, 모든 정황으로 볼 때 CPX가 로드맵에서 제외되고 플랫폼 계층 구조에서 LPX Groq 3로 대체된 것으로 보입니다.

CPX는 당초 HBM 부족 사태에 대응하여 GDDR7의 높은 가용성을 활용해 컨텍스트 단계 처리 속도를 높이는 저비용 대안으로 구상되었습니다. 그러나 Groq의 LPU는 대용량 외부 메모리 모듈의 필요성을 없애고 다이당 훨씬 높은 대역폭을 제공합니다. 이는 HBM 공급이 여전히 부족하고 GDDR7 생산량이 아직 확대 단계에 있는 시장에서 분명한 이점입니다. 이미 고객에게 공급된 CPX 제품은 계속 납품될 수 있지만, 전략적 우선순위는 이제 LPU 통합으로 옮겨가는 것으로 보입니다.

2019년 멜라녹스 인수 사례와도 운영상 유사한 점이 있습니다. 스타트업 기술이 엔비디아 인프라 내에서 새로운 아키텍처 계층을 형성하는 사례인데, 멜라녹스의 경우 NVLink/InfiniBand가 그 예입니다. 마찬가지로, Groq 역시 루빈 생태계 내에서 유사한 구조적 구성 요소가 될 수 있습니다.

추론 칩 시장의 통합

Groq와의 계약은 추론 칩에 집중된 2025년의 통합 물결에서 가장 눈에 띄는 부분이었습니다. 그 해 AMD는 Untether AI 팀을 인수했고, 엔비디아는 Enfabrica의 장비와 IP를 9억 달러 이상에 인수했으며, Meta는 Rivos를 인수했습니다. 또한 인텔과 SambaNova 간에는 3억 5천만 달러 투자 및 파트너십으로 이어지는 논의가 있었지만 결국 무산되었습니다. 이러한 움직임은 기술적 우위가 있더라도 엔비디아의 CUDA 생태계와 규모에 맞서 독자적으로 경쟁하는 것이 심각한 경제적 어려움을 수반한다는 사실을 반영합니다.

반복적으로 나타나는 패턴은 주요 기업들이 인재와 기술을 흡수하는 것입니다. 예를 들어, Groq는 2025년까지 약 5억 유로의 매출을 예상했지만, 이 수치로는 시장을 주도하는 제조업체들의 전략적 압력에 맞서 독립성을 유지하기에 충분하지 않았습니다. 분석가들은 비독점 라이선스 계약이 경쟁 구도를 유지하는 것처럼 보이지만, 실제로는 경쟁사의 기술을 구매자의 플랫폼에 통합함으로써 경쟁사를 무력화시킨다고 지적합니다.

하이퍼스케일러용 맞춤형 실리콘

추론 가속기를 위한 메타 MTIA 로드맵 다이어그램 — Meta는 MTIA 로드맵을 발표했습니다. 최근에. (이미지 출처: Meta)

스타트업들이 대기업에 통합되는 동안, 주요 클라우드 제공업체들은 자체적인 실리콘 추론 파이프라인 개발을 추진하고 있습니다.

Meta는 Broadcom과 공동 개발한 MTIA의 차세대 버전을 발표했습니다. 랭킹 및 추천에 이미 활용 중인 MTIA 300부터 생성형 추론에 초점을 맞추고 2027년 대규모 배포를 목표로 하는 MTIA 500까지 다양한 버전이 있습니다. Google은 TFLOPS급 성능과 대규모 Pod를 제공하는 TPU 제품군(Ironwood v7)을 유지하고 있으며, AWS는 Trainium과 Inferentia 개발을 지속하고 있지만, 2024년까지의 내부 데이터에 따르면 AWS 자체 인프라의 GPU에 비해 채택률이 상대적으로 낮은 것으로 나타났습니다.

업계 조사 및 전망은 다각화 추세를 뒷받침합니다. 2025년 11월, Futurum Group은 XPU 가속기를 2026년 데이터 센터 지출에서 가장 빠르게 성장하는 부문으로 선정했으며, TrendForce는 같은 해 클라우드 제공업체의 맞춤형 ASIC 출하량이 크게 증가할 것으로 예상했습니다.

엔비디아의 대응은 명확했습니다. 타사보다 먼저 자사 플랫폼에 비GPU 칩을 확보하는 것이었습니다. Groq 3 LPU는 이러한 전략의 구체적인 결과물입니다. 하지만 Rubin CPX의 미래는 현재로서는 불확실합니다.

이것을 공유하십시오: