Groq 3 LPU и стратегические изменения в компании Rubin
Презентация Groq 3 на GTC 2026 — это больше, чем просто технический запуск: она знаменует собой стратегический сдвиг в структуре платформы Nvidia для выполнения инференций. Это не просто новый чип, он переопределяет внутреннюю иерархию Rubin и предвосхищает отдельный этап в конкуренции за специализированные кремниевые решения.
На конференции GTC 2026, проходившей в Сан-Хосе, компания Nvidia представила ускоритель инференции Groq 3: первый чип, созданный в рамках соглашения о лицензировании и привлечении талантов на сумму 20 миллиардов долларов, подписанного 24 декабря 2025 года. Это LPU (блок обработки языка). на основе SRAM, разработанной Nvidia. Он интегрирован в платформу Vera Rubin в качестве выделенного сопроцессора для этапа декодирования. Производитель объявил ожидаемую дату начала поставок в третьем квартале 2026 года; производство будет осуществляться компанией Samsung по 4-нм техпроцессу. Это также первый стоечный продукт Nvidia, разработанный на основе кремниевых чипов без графического процессора, и его появление побудило компанию пересмотреть свои планы по выпуску компонентов.
В основе Groq 3 LPX лежит чип LP30: 512 МБ SRAM на кристалл и 150 ТБ/с пропускной способности памяти на чип. Для сравнения, графический процессор Rubin с 288 ГБ HBM4 обеспечивает около 22 ТБ/с; разница в несколько порядков — это не нюанс, а архитектурное решение. Полная стойка LPX вмещает 256 LPU, в общей сложности 128 ГБ SRAM и 40 ПБ/с суммарной пропускной способности. Nvidia утверждает, что в сочетании с Rubin NVL72 стойка LPX обеспечивает до 35 раз большую производительность на мегаватт по сравнению с одним только NVL72 в моделях с триллионом параметров, при целевой стоимости эксплуатации в 45 долларов за миллион токенов.
Groq 3 и функция в Rubin

В запланированном режиме работы графические процессоры Rubin обрабатывают фазу предварительного заполнения — обработку длинных контекстов и вычисления высокой плотности, — в то время как LPU Groq управляют декодированием и генерацией токенов с уменьшенной задержкой. Dynamo организует это гетерогенное распределение, назначая задачи на основе размера пакета и параллелизма для баланса производительности и энергопотребления.
Первоначальная конструкция LPU от Groq отдавала приоритет детерминизму: конвейер VLIW (Very Long Instruction Word) с большими блоками SRAM и компилятором, который предварительно планировал выполнение, исключая промахи кэша и неожиданные остановки. Это привело к очень высокой скорости загрузки токенов на пользователя, но выявило проблему с емкостью: предыдущие поколения с 230 МБ SRAM на чипе требовали множества кристаллов для размещения моделей среднего размера, и архитектура Изначально он был ориентирован на сверточные нейронные сети, а не на современные языковые модели.
LP30 частично компенсирует эти ограничения благодаря 512 МБ SRAM на кристалл и вычислительной мощности FP8 в 1,23 PFLOPS. По данным анонсов, Samsung увеличила объемы производства — с примерно 9000 до примерно 15000 пластин — перейдя от производства образцов к коммерческому производству. На GTC также было объявлено, что AWS развернет LPU Groq 3 вместе с более чем миллионом графических процессоров Nvidia в рамках расширения своей инфраструктуры.
Помимо LP30, Nvidia упомянула план развития продукта: LP35 с поддержкой NVFP4, предназначенный для поколения Rubin Ultra, и LP40, запланированный для архитектурного цикла Feynman в более поздние сроки.
Что происходит с Rubin CPX?
На конференции GTC отсутствовал Rubin CPX, ускоритель вывода, основанный на GDDR7, которую использует Nvidia Об этом было объявлено в сентябре 2025 года. На основных слайдах презентации он не был представлен, и его не было видно на сцене. Все указывает — без полного официального подтверждения — на то, что CPX был исключен из дорожной карты и заменен в иерархии платформ на LPX Groq 3.
Изначально CPX задумывался как более дешевая альтернатива для ускорения фазы контекста с использованием GDDR7, благодаря большей доступности этой памяти в условиях дефицита HBM. Однако LPU от Groq устраняют необходимость в больших внешних модулях памяти и обеспечивают значительно более высокую пропускную способность на кристалл — явное преимущество на рынке, где предложение HBM остается ограниченным, а производство GDDR7 все еще наращивается. Хотя поставки уже заказанных клиентам модулей CPX могут продолжаться, стратегическое предпочтение, похоже, смещается в сторону интеграции LPU.
Существует также оперативная аналогия с приобретением Mellanox в 2019 году: стартап-технологии, которые в конечном итоге формируют новые архитектурные уровни в инфраструктуре Nvidia — в их случае NVLink/InfiniBand — и в этом сценарии Groq может стать аналогичным структурным компонентом в экосистеме Rubin.
Консолидация рынка микросхем для обработки данных.
Сделка с Groq стала наиболее заметным элементом волны консолидации 2025 года, ориентированной на чипы для обработки данных. В том году AMD приобрела команду Untether AI, Nvidia купила оборудование и интеллектуальную собственность Enfabrica за более чем 900 миллионов долларов, Meta приобрела Rivos, а также велись переговоры — в конечном итоге прерванные — между Intel и SambaNova, которые привели к инвестициям в размере 350 миллионов долларов и партнерству. Этот шаг отражает тот факт, что самостоятельная конкуренция с экосистемой CUDA и масштабами Nvidia представляет собой серьезные экономические проблемы, даже если технология имеет техническую ценность.
Повторяющаяся тенденция — поглощение талантов и технологий крупными игроками рынка. Например, компания Groq ожидала получить около 500 миллионов евро выручки к 2025 году, но этой цифры оказалось недостаточно для сохранения независимости перед лицом стратегического давления со стороны доминирующих производителей. Аналитики отмечают, что неисключительные лицензионные соглашения создают видимость конкуренции, но на практике нейтрализуют конкурентов, интегрируя их технологии в платформу покупателя.
Изготовление микросхем на заказ для крупных компаний

В то время как стартапы интегрируются в более крупные компании, ведущие облачные провайдеры продвигают собственные конвейеры обработки данных на основе кремниевых технологий.
Компания Meta анонсировала последовательные поколения MTIA, разработанных совместно с Broadcom: от MTIA 300 — уже находящейся в производстве для ранжирования и рекомендаций — до MTIA 500, ориентированной на генеративный вывод и запланированной к массовому внедрению в 2027 году. Google поддерживает свою линейку TPU (Ironwood v7) с показателями TFLOPS и возможностью обработки больших объемов данных, а AWS продолжает разработку Trainium и Inferentia, хотя внутренние данные до 2024 года показали относительно низкий уровень внедрения по сравнению с GPU в собственной инфраструктуре AWS.
Отраслевые исследования и прогнозы подтверждают необходимость диверсификации: в ноябре 2025 года Futurum Group назвала ускорители XPU самым быстрорастущим сегментом в расходах на центры обработки данных в 2026 году, а TrendForce спрогнозировала заметное увеличение поставок специализированных ASIC-чипов облачными провайдерами в том же году.
Реакция Nvidia была ясна: обеспечить наличие в своей платформе процессоров, не являющихся графическими процессорами, раньше, чем это сделают сторонние разработчики. Groq 3 LPU — это наглядное воплощение этой стратегии; однако будущее Rubin CPX пока остается неопределенным.




















