Groq 3 LPU, Nvidia'nın Yol Haritasını Yeniden Tanımlıyor

Groq 3 LPU ve Rubin'deki stratejik değişim

GTC 2026'da Groq 3'ün tanıtımı, sadece teknik bir lansmandan daha fazlası: Nvidia'nın çıkarım platformunu nasıl yapılandırdığı konusunda stratejik bir değişimi işaret ediyor. Yeni bir çipten daha fazlası olan bu ürün, Rubin'in iç hiyerarşisini yeniden tanımlıyor ve özel silikon rekabetinde farklı bir aşamayı öngörüyor.

San Jose'de düzenlenen GTC 2026'da Nvidia, 24 Aralık 2025'te imzalanan 20 milyar dolarlık lisans ve yetenek anlaşmasının ürünü olan ilk çip olan Groq 3 çıkarım hızlandırıcısını tanıttı. Bu bir LPU (dil işleme birimi) Nvidia'nın SRAM tabanlı Bu, kod çözme aşaması için özel bir yardımcı işlemci olarak Vera Rubin platformuna entegre edilmiştir. Üretici, beklenen sevkiyat tarihinin 2026 yılının üçüncü çeyreği olduğunu açıkladı; üretim, Samsung tarafından 4nm düğümünde gerçekleştirilecek. Ayrıca, Nvidia'nın GPU dışı silikon etrafında tasarlanmış ilk raf tipi ürünüdür ve piyasaya sürülmesi, yol haritasındaki kendi bileşenlerinin yeniden düzenlenmesine yol açmıştır.

Groq 3 LPX'in kalbi, her bir yongada 512 MB SRAM ve yonga başına 150 TB/s bellek bant genişliği sunan LP30 çipidir. Bunu daha iyi anlamak için, 288 GB HBM4'e sahip bir Rubin GPU'nun yaklaşık 22 TB/s sunduğunu belirtelim; aradaki büyüklük farkı bir nüans değil, mimari bir tercihtir. Tam bir LPX rafı, toplam 128 GB SRAM ve 40 PB/s toplam bant genişliğine sahip 256 LPU barındırır. Nvidia, bir Rubin NVL72 ile birlikte kullanıldığında, bir LPX rafının, trilyon parametreli modellerde tek başına bir NVL72'ye kıyasla megawatt başına 35 kata kadar daha yüksek performans sağladığını ve milyon token başına 45 dolarlık bir işletme maliyeti hedefi belirlediğini iddia ediyor.

Groq 3 ve Rubin'deki fonksiyon

Rubin rafı görselleştirmesi, SuperPOD mimarisini göstermektedir. — Nvidia, GTC 2026'da yedi çipten oluşan Rubin SuperPOD stratejisini açıkladı. (Görsel kaynağı: Nvidia)

Planlanan işlemde, Rubin GPU'lar ön doldurma aşamasını (uzun bağlamları ve yüksek yoğunluklu hesaplamaları işleme) üstlenirken, Groq LPU'lar ise azaltılmış gecikmeyle kod çözme ve belirteç oluşturmayı yönetir. Dynamo, bu heterojen dağıtımı düzenleyerek, performans ve enerji maliyetini dengelemek için görevleri toplu işlem boyutu ve paralelliğe göre atar.

Groq'un orijinal LPU tasarımı, determinizmi önceliklendiriyordu: büyük SRAM bankalarına sahip bir VLIW (Çok Uzun Komut Kelimesi) işlem hattı ve önbellek hatalarını ve beklenmedik duraklamaları ortadan kaldıran, yürütmeyi önceden planlayan bir derleyici. Bu, kullanıcı başına çok yüksek token oranlarına yol açtı, ancak bir kapasite sorununu ortaya çıkardı: çip başına 230 MB SRAM'e sahip önceki nesiller, orta boyutlu modelleri barındırmak için birçok yonga gerektiriyordu ve mimari Doğuştan modern dil modellerinden ziyade evrimsel ağlara yönelik olarak geliştirildi.

LP30, yonga başına 512 MB SRAM ve 1,23 PFLOPS FP8 işlem gücü ile bu sınırlamaların bazılarını hafifletiyor. Samsung, duyurulara göre, numune aşamasından ticari üretime geçerek üretimini yaklaşık 9.000'den yaklaşık 15.000 wafer'a çıkardı. GTC'de ayrıca AWS'nin altyapı genişletmesinin bir parçası olarak bir milyondan fazla Nvidia GPU'nun yanı sıra Groq 3 LPU'ları da kullanıma sunacağı duyuruldu.

LP30'un ötesinde, Nvidia bir ürün yol haritasından bahsetti: Rubin Ultra nesliyle uyumlu olması amaçlanan NVFP4 desteğine sahip bir LP35 ve daha sonra Feynman mimari döngüsü için planlanan bir LP40.

Rubin CPX'in durumu ne?

GTC'de, Rubin CPX'in, yani çıkarım hızlandırıcıya dayalı sistemin yokluğu dikkat çekiciydi. Nvidia'nın GDDR7'si Bu durum Eylül 2025'te duyurulmuştu. Ana sunum slaytlarında yer almadı ve sahnede de sunulmadı. Her şey, tam resmi bir onay olmamasına rağmen, CPX'in yol haritasından çıkarıldığını ve platform hiyerarşisinde LPX Groq 3 ile değiştirildiğini gösteriyor.

CPX başlangıçta, HBM kıtlığı karşısında daha yüksek bulunabilirliğinden yararlanarak GDDR7 kullanarak bağlam aşamasını hızlandırmak için daha düşük maliyetli bir alternatif olarak tasarlandı. Bununla birlikte, Groq'un LPU'ları büyük harici bellek modüllerine olan ihtiyacı ortadan kaldırıyor ve kalıp başına önemli ölçüde daha yüksek bant genişliği sunuyor; bu da HBM arzının kısıtlı olduğu ve GDDR7 üretiminin hala ölçeklendirildiği bir pazarda açık bir avantaj sağlıyor. Müşterilere zaten teslim edilmiş CPX ünitelerinin teslimatı devam edebilirken, stratejik tercih artık LPU entegrasyonuna doğru kayıyor gibi görünüyor.

2019'da Mellanox'un satın alınmasıyla da operasyonel bir benzerlik söz konusu: Nvidia'nın altyapısı içinde yeni mimari katmanlar oluşturan (onların durumunda NVLink/InfiniBand) girişim teknolojileri ve bu senaryoda Groq, Rubin ekosistemi içinde benzer bir yapısal bileşen haline gelebilir.

Çıkarım çipi pazarının konsolidasyonu

Groq ile yapılan anlaşma, çıkarım çiplerine odaklanan 2025 konsolidasyon dalgasının en görünür parçasıydı. O yıl AMD, Untether AI ekibini satın aldı, Nvidia, Enfabrica'nın ekipman ve fikri mülkiyetini 900 milyon dolardan fazla bir bedelle satın aldı, Meta, Rivos'u satın aldı ve Intel ile SambaNova arasında 350 milyon dolarlık bir yatırım ve ortaklıkla sonuçlanan (sonunda vazgeçilen) görüşmeler gerçekleşti. Bu hamle, teknolojinin teknik olarak üstün olsa bile, Nvidia'nın CUDA ekosistemi ve ölçeğine karşı bağımsız olarak rekabet etmenin ciddi ekonomik zorluklar yarattığını yansıtıyor.

Tekrarlayan örüntü, yetenek ve teknolojinin büyük oyuncular tarafından özümsenmesidir. Örneğin Groq, 2025 yılına kadar yaklaşık 500 milyon Euro gelir bekliyordu, ancak bu rakam, baskın üreticilerin stratejik baskısı karşısında bağımsızlığını korumak için yeterli olmadı. Analistler, münhasır olmayan lisans anlaşmalarının rekabet görünümünü koruduğunu, ancak pratikte rakiplerin teknolojisini alıcının platformuna entegre ederek onları etkisiz hale getirdiğini belirtiyor.

Hiper ölçekli bulut sağlayıcılarında özel silikon

Çıkarım Hızlandırıcıları için Meta MTIA Yol Haritası Diyagramı — Meta, MTIA yol haritasını sundu. son zamanlarda. (Görsel kaynağı: Meta)

Girişim şirketleri daha büyük şirketlere entegre olurken, büyük bulut sağlayıcıları kendi silikon tabanlı çıkarım işlem hatlarını geliştirmeye çalışıyor.

Meta, Broadcom ile birlikte geliştirilen MTIA'nın ardışık nesillerini duyurdu: Sıralama ve öneri sistemlerinde halihazırda kullanımda olan MTIA 300'den, üretken çıkarıma yönelik ve 2027'de kitlesel dağıtım için planlanan MTIA 500'e kadar. Google, TFLOPS değerleri ve büyük ölçekli pod'larla TPU serisini (Ironwood v7) korurken, AWS de Trainium ve Inferentia'yı geliştirmeye devam ediyor; ancak 2024'e kadar olan iç veriler, AWS'nin kendi altyapısında GPU'lara kıyasla nispeten düşük bir benimseme oranı gösterdi.

Sektör anketleri ve tahminleri çeşitlendirmeyi destekliyor: Kasım 2025'te Futurum Group, XPU hızlandırıcılarını 2026 yılı için veri merkezi harcamalarında en hızlı büyüyen segment olarak sıraladı ve TrendForce, aynı yıl için bulut sağlayıcıları tarafından özel ASIC sevkiyatlarında kayda değer bir artış öngördü.

Nvidia'nın tepkisi net oldu: üçüncü partilerden önce platformunda GPU dışı silikonun varlığını güvence altına almak. Groq 3 LPU bu stratejinin somut bir tezahürüdür; ancak Rubin CPX'in geleceği şimdilik belirsizliğini koruyor.

Bunu paylaş: