Groq 3 LPU zmienia plan działania firmy Nvidia

Groq 3 LPU i strategiczna zmiana w Rubin

Prezentacja Groq 3 na GTC 2026 to coś więcej niż tylko premiera techniczna: to strategiczna zmiana w sposobie, w jaki Nvidia strukturyzuje swoją platformę wnioskowania. To coś więcej niż tylko nowy układ – to redefiniuje wewnętrzną hierarchię Rubina i zapowiada odrębną fazę w rywalizacji o wyspecjalizowane układy scalone.

Podczas konferencji GTC 2026 w San Jose firma Nvidia zaprezentowała akcelerator inferencyjny Groq 3: pierwszy układ scalony, który powstał w wyniku podpisanej 24 grudnia 2025 r. umowy licencyjnej i programowej o wartości 20 miliardów dolarów. Jest to jednostka przetwarzania języka (LPU). na bazie SRAM, którą Nvidia Jest zintegrowany z platformą Vera Rubin jako dedykowany koprocesor do fazy dekodowania. Producent ogłosił przewidywaną datę dostawy na trzeci kwartał 2026 roku; produkcją zajmie się Samsung w procesie technologicznym 4 nm. Jest to również pierwszy produkt Nvidii w obudowie rack, zaprojektowany z myślą o procesorach innych niż GPU, a jego pojawienie się spowodowało zmianę kolejności komponentów w planie rozwoju firmy.

Sercem Groq 3 LPX jest układ LP30: 512 MB pamięci SRAM na kość i przepustowość pamięci 150 TB/s na układ. Dla porównania, procesor graficzny Rubin z 288 GB pamięci HBM4 oferuje około 22 TB/s; różnica rzędu wielkości nie jest kwestią niuansów, a wyborem architektonicznym. Pełna szafa LPX mieści 256 jednostek LPU, co daje łącznie 128 GB pamięci SRAM i łączną przepustowość 40 PB/s. Firma Nvidia twierdzi, że w połączeniu z układem Rubin NVL72, szafa LPX zapewnia do 35 razy wyższą wydajność na megawat w porównaniu z samym układem NVL72 w modelach bilionowych parametrów, przy docelowym koszcie operacyjnym wynoszącym 45 USD na milion tokenów.

Groq 3 i funkcja w Rubinie

Wizualizacja stojaka Rubin ilustrująca architekturę SuperPOD — Firma Nvidia przedstawiła swoją strategię dotyczącą siedmioprocesorowego układu Rubin SuperPOD podczas targów GTC 2026. (Źródło obrazu: Nvidia)

W planowanej operacji procesory graficzne Rubin zajmują się fazą wstępnego wypełniania – przetwarzaniem długich kontekstów i obliczeń o wysokiej gęstości – podczas gdy jednostki LPU Groq zarządzają dekodowaniem i generowaniem tokenów z mniejszym opóźnieniem. Dynamo koordynuje tę heterogeniczną dystrybucję, przydzielając zadania na podstawie rozmiaru partii i paralelizmu, aby zrównoważyć wydajność i zużycie energii.

Oryginalny projekt LPU firmy Groq stawiał na determinizm: potok VLIW (Very Long Instruction Word) z dużymi bankami SRAM i kompilatorem, który planował wykonywanie z wyprzedzeniem, eliminując błędy w pamięci podręcznej i nieoczekiwane zatrzymania. To skutkowało bardzo wysokim wskaźnikiem tokenów na użytkownika, ale ujawniło problem z pojemnością: poprzednie generacje z 230 MB pamięci SRAM na chip wymagały wielu matryc, aby pomieścić modele średniej wielkości, a architektura Powstał on z myślą o sieciach konwolucyjnych, a nie o nowoczesnych modelach językowych.

Procesor LP30 łagodzi niektóre z tych ograniczeń dzięki 512 MB pamięci SRAM na kość i mocy obliczeniowej FP8 wynoszącej 1,23 PFLOPS. Samsung zwiększył produkcję – z około 9000 do około 15 000 płytek, zgodnie z zapowiedziami – przechodząc od produkcji próbek do produkcji komercyjnej. Podczas targów GTC ogłoszono również, że AWS wdroży jednostki LPU Groq 3 wraz z ponad milionem procesorów graficznych Nvidia w ramach rozbudowy swojej infrastruktury.

Oprócz układu LP30 firma Nvidia podała plan rozwoju produktu: układ LP35 ze wsparciem dla NVFP4, który ma być zgodny z generacją Rubin Ultra, a także układ LP40, który ma zostać wprowadzony na rynek w późniejszym cyklu architektury Feynman.

Co dzieje się z Rubin CPX?

W GTC brak Rubin CPX, akceleratora wnioskowania opartego na GDDR7, które Nvidia Zapowiedziano go we wrześniu 2025 roku. Nie pojawił się na głównych slajdach ani na scenie. Wszystko wskazuje – bez pełnego oficjalnego potwierdzenia – że CPX został usunięty z planu i zastąpiony w hierarchii platformy przez LPX Groq 3.

Początkowo CPX był pomyślany jako tańsza alternatywa przyspieszająca fazę kontekstową za pomocą pamięci GDDR7, wykorzystująca jej większą dostępność w obliczu niedoborów pamięci HBM. Jednak jednostki LPU firmy Groq eliminują potrzebę stosowania dużych zewnętrznych modułów pamięci i oferują znacznie większą przepustowość na układ – co stanowi wyraźną przewagę na rynku, gdzie podaż pamięci HBM jest ograniczona, a produkcja pamięci GDDR7 wciąż rośnie. Chociaż jednostki CPX, które zostały już dostarczone klientom, mogą być nadal dostarczane, strategiczna preferencja wydaje się obecnie przesuwać w kierunku integracji z jednostkami LPU.

Można również dostrzec operacyjną analogię do przejęcia Mellanox w 2019 r.: technologie startupowe, które ostatecznie tworzą nowe warstwy architektoniczne w ramach infrastruktury Nvidii — w tym przypadku NVLink/InfiniBand — a w tym scenariuszu Groq mógłby stać się podobnym elementem strukturalnym w ekosystemie Rubin.

Konsolidacja rynku układów scalonych do wnioskowania

Umowa z Groq była najbardziej widocznym elementem fali konsolidacji w 2025 roku, skoncentrowanej na układach wnioskowania. W tym roku AMD przejęło zespół Untether AI, Nvidia przejęła sprzęt i własność intelektualną Enfabrica za ponad 900 milionów dolarów, Meta kupiła Rivos, a Intel i SambaNova prowadziły rozmowy – ostatecznie przerwane – które zaowocowały inwestycją i partnerstwem o wartości 350 milionów dolarów. Ten krok odzwierciedla fakt, że niezależna konkurencja z ekosystemem CUDA i skalą Nvidii stwarza poważne wyzwania ekonomiczne, nawet jeśli technologia ma wartość techniczną.

Powtarzającym się schematem jest absorpcja talentów i technologii przez głównych graczy. Na przykład Groq spodziewał się około 500 milionów euro przychodów do 2025 roku, ale ta kwota nie wystarczyła, aby utrzymać niezależność w obliczu strategicznej presji ze strony dominujących producentów. Analitycy zwracają uwagę, że niewyłączne umowy licencyjne zachowują pozory konkurencji, ale w praktyce neutralizują rywali poprzez integrację ich technologii z platformą kupującego.

Niestandardowy krzem w hiperskalerach

Diagram mapy drogowej Meta MTIA dla akceleratorów wnioskowania — Meta przedstawiła swoją mapę drogową MTIA Ostatnio. (Źródło obrazu: Meta)

Podczas gdy startupy integrują się z większymi firmami, główni dostawcy usług w chmurze wdrażają własne krzemowe procesy wnioskowania.

Firma Meta ogłosiła kolejne generacje MTIA opracowane we współpracy z Broadcom: od MTIA 300 — już w fazie produkcji na potrzeby pozycjonowania i rekomendacji — do MTIA 500, ukierunkowanego na wnioskowanie generatywne i planowanego do masowego wdrożenia w 2027 r. Google utrzymuje linię TPU (Ironwood v7) z wartościami TFLOPS i kontenerami na dużą skalę, a AWS kontynuuje rozwój Trainium i Inferentia, chociaż wewnętrzne dane do 2024 r. wykazały stosunkowo niską adopcję w porównaniu z procesorami GPU w infrastrukturze AWS.

Badania i prognozy branżowe potwierdzają dywersyfikację: w listopadzie 2025 r. Futurum Group uznało akceleratory XPU za najszybciej rozwijający się segment wydatków na centra danych w 2026 r., a TrendForce prognozował znaczny wzrost dostaw niestandardowych układów ASIC przez dostawców usług w chmurze w tym samym roku.

Reakcja Nvidii była jasna: zapewnić obecność układów scalonych innych niż GPU w swojej platformie, zanim zrobią to firmy zewnętrzne. Moduł LPU Groq 3 jest namacalnym przejawem tej strategii; przyszłość Rubina CPX pozostaje jednak na razie niepewna.

Podziel się tym: