Groq 3 LPU dan pergeseran strategis di Rubin
Peluncuran Groq 3 di GTC 2026 bukan hanya sekadar peluncuran teknologi: ini menandai pergeseran strategis dalam cara Nvidia menyusun platform inferensinya. Lebih dari sekadar chip baru, ini mendefinisikan ulang hierarki internal Rubin dan mengantisipasi fase berbeda dalam persaingan untuk silikon khusus.
Pada GTC 2026, yang diadakan di San Jose, Nvidia memperkenalkan akselerator inferensi Groq 3: chip pertama yang muncul dari perjanjian lisensi dan talenta senilai $20 miliar yang ditandatangani pada 24 Desember 2025. Ini adalah LPU (unit pemrosesan bahasa). berdasarkan SRAM yang digunakan Nvidia Prosesor ini terintegrasi ke dalam platform Vera Rubin sebagai koprosesor khusus untuk fase dekoding. Produsen mengumumkan perkiraan tanggal pengiriman pada kuartal ketiga tahun 2026; produksi akan ditangani oleh Samsung pada node 4nm. Ini juga merupakan produk skala rak pertama Nvidia yang dirancang di sekitar silikon non-GPU, dan kehadirannya telah mendorong penataan ulang komponennya sendiri dalam peta jalan.
Inti dari Groq 3 LPX adalah chip LP30: 512 MB SRAM per die dan bandwidth memori 150 TB/s per chip. Sebagai perbandingan, GPU Rubin dengan 288 GB HBM4 menawarkan sekitar 22 TB/s; perbedaan orde besaran ini bukanlah nuansa, melainkan pilihan arsitektur. Satu rak LPX penuh menampung 256 LPU, dengan total 128 GB SRAM dan bandwidth agregat 40 PB/s. Nvidia mengklaim bahwa, dikombinasikan dengan Rubin NVL72, satu rak LPX memberikan kinerja hingga 35 kali lipat per megawatt dibandingkan dengan NVL72 saja dalam model dengan triliunan parameter, dengan target biaya operasional $45 per juta token.
Groq 3 dan fungsi di Rubin

Dalam operasi yang direncanakan, GPU Rubin menangani fase pra-pengisian—memproses konteks panjang dan perhitungan kepadatan tinggi—sementara LPU Groq mengelola dekoding dan pembuatan token dengan latensi yang lebih rendah. Dynamo mengatur distribusi heterogen ini, menetapkan tugas berdasarkan ukuran batch dan paralelisme untuk menyeimbangkan kinerja dan biaya energi.
Desain LPU asli Groq memprioritaskan determinisme: sebuah pipeline VLIW (Very Long Instruction Word) dengan bank SRAM besar dan sebuah compiler yang merencanakan eksekusi sebelumnya, menghilangkan cache miss dan penghentian yang tidak terduga. Hal ini menghasilkan tingkat token per pengguna yang sangat tinggi, tetapi mengungkapkan masalah kapasitas: generasi sebelumnya dengan 230 MB SRAM per chip membutuhkan banyak die untuk mengakomodasi model berukuran sedang, dan arsitektur Teknologi ini lahir dengan orientasi pada jaringan konvolusional, bukan pada model bahasa modern.
LP30 mengurangi beberapa keterbatasan ini dengan 512 MB SRAM per die dan kapasitas komputasi FP8 sebesar 1,23 PFLOPS. Samsung telah meningkatkan produksi—dari sekitar 9.000 menjadi sekitar 15.000 wafer, menurut pengumuman tersebut—dengan beralih dari sampel ke manufaktur komersial. Di GTC, juga diumumkan bahwa AWS akan mengerahkan LPU Groq 3 bersama dengan lebih dari satu juta GPU Nvidia sebagai bagian dari perluasan infrastrukturnya.
Selain LP30, Nvidia menyebutkan peta jalan produk: LP35 dengan dukungan NVFP4 yang dimaksudkan untuk selaras dengan generasi Rubin Ultra, dan LP40 yang direncanakan untuk siklus arsitektur Feynman di kemudian hari.
Apa yang terjadi dengan Rubin CPX?
Di GTC, ketidakhadiran Rubin CPX, akselerator inferensi yang berbasis pada GDDR7 yang digunakan Nvidia Pengumuman itu disampaikan pada September 2025. Namun, hal itu tidak muncul di slide utama maupun dipresentasikan di atas panggung. Semua indikasi—tanpa konfirmasi resmi sepenuhnya—menunjukkan bahwa CPX telah dihapus dari peta jalan dan digantikan dalam hierarki platform oleh LPX Groq 3.
CPX awalnya dirancang sebagai alternatif berbiaya lebih rendah untuk mempercepat fase konteks menggunakan GDDR7, memanfaatkan ketersediaannya yang lebih besar di tengah kekurangan HBM. Namun, LPU Groq menghilangkan kebutuhan akan modul memori eksternal yang besar dan menawarkan bandwidth per die yang jauh lebih tinggi—sebuah keunggulan yang jelas di pasar di mana pasokan HBM masih terbatas dan produksi GDDR7 masih dalam tahap peningkatan. Meskipun unit CPX yang sudah dipesan pelanggan mungkin akan terus dikirim, preferensi strategis sekarang tampaknya bergeser ke arah integrasi LPU.
Terdapat pula analogi operasional dengan akuisisi Mellanox pada tahun 2019: teknologi startup yang akhirnya membentuk lapisan arsitektur baru dalam infrastruktur Nvidia — dalam kasus mereka NVLink/InfiniBand — dan, dalam skenario ini, Groq dapat menjadi komponen struktural serupa dalam ekosistem Rubin.
Konsolidasi pasar chip inferensi
Kesepakatan dengan Groq adalah bagian paling terlihat dari gelombang konsolidasi tahun 2025 yang berfokus pada chip inferensi. Tahun itu, AMD mengakuisisi tim AI Untether, Nvidia mengakuisisi peralatan dan IP Enfabrica senilai lebih dari $900 juta, Meta membeli Rivos, dan ada pembicaraan—yang akhirnya dibatalkan—antara Intel dan SambaNova yang menghasilkan investasi dan kemitraan senilai $350 juta. Langkah ini mencerminkan fakta bahwa bersaing secara independen melawan ekosistem dan skala CUDA Nvidia menghadirkan tantangan ekonomi yang berat, bahkan ketika teknologi tersebut memiliki keunggulan teknis.
Pola yang berulang adalah penyerapan talenta dan teknologi oleh para pemain utama. Groq, misalnya, memperkirakan pendapatan sekitar €500 juta pada tahun 2025, tetapi angka tersebut tidak cukup untuk mempertahankan kemandiriannya dalam menghadapi tekanan strategis dari produsen dominan. Para analis menunjukkan bahwa perjanjian lisensi non-eksklusif mempertahankan penampilan persaingan, tetapi dalam praktiknya menetralkan pesaing dengan mengintegrasikan teknologi mereka ke dalam platform pembeli.
Silikon khusus di perusahaan hyperscaler.

Sementara perusahaan rintisan berintegrasi ke dalam perusahaan yang lebih besar, penyedia layanan cloud utama mendorong pengembangan pipeline inferensi silikon mereka sendiri.
Meta mengumumkan generasi MTIA berturut-turut, yang dikembangkan bersama Broadcom: dari MTIA 300—yang sudah digunakan untuk pemeringkatan dan rekomendasi—hingga MTIA 500, yang ditujukan untuk inferensi generatif dan direncanakan untuk penyebaran massal pada tahun 2027. Google mempertahankan lini TPU-nya (Ironwood v7) dengan angka TFLOPS dan pod skala besar, dan AWS terus mengembangkan Trainium dan Inferentia, meskipun data internal hingga tahun 2024 menunjukkan adopsi yang relatif rendah dibandingkan dengan GPU di infrastruktur AWS sendiri.
Survei dan proyeksi industri memperkuat diversifikasi: Pada November 2025, Futurum Group menempatkan akselerator XPU sebagai segmen dengan pertumbuhan tercepat dalam pengeluaran pusat data untuk tahun 2026, dan TrendForce memproyeksikan peningkatan yang signifikan dalam pengiriman ASIC khusus oleh penyedia cloud untuk tahun yang sama.
Reaksi Nvidia sudah jelas: untuk mengamankan keberadaan silikon non-GPU dalam platformnya sebelum pihak ketiga melakukannya. Groq 3 LPU adalah perwujudan nyata dari strategi tersebut; namun, masa depan Rubin CPX masih belum pasti untuk saat ini.




















