Groq 3 LPU กำหนดนิยามใหม่ของแผนงานของ Nvidia

Groq 3 LPU และการเปลี่ยนแปลงเชิงกลยุทธ์ที่ Rubin

การเปิดตัว Groq 3 ในงาน GTC 2026 ไม่ใช่แค่การเปิดตัวทางเทคนิคเท่านั้น แต่ยังเป็นการเปลี่ยนแปลงเชิงกลยุทธ์ในการจัดโครงสร้างแพลตฟอร์มการประมวลผลแบบอนุมานของ Nvidia อีกด้วย นี่ไม่ใช่แค่ชิปใหม่ แต่เป็นการกำหนดโครงสร้างลำดับชั้นภายในของ Rubin ใหม่ และเป็นการบ่งบอกถึงช่วงเวลาที่สำคัญในการแข่งขันเพื่อแย่งชิงชิปเฉพาะทาง

ในงาน GTC 2026 ที่จัดขึ้นในซานโฮเซ่ Nvidia ได้เปิดตัว Groq 3 ซึ่งเป็นตัวเร่งการประมวลผลแบบอนุมาน (inference accelerator) ซึ่งเป็นชิปตัวแรกที่เกิดขึ้นจากข้อตกลงด้านลิขสิทธิ์และการว่าจ้างบุคลากรมูลค่า 20 พันล้านดอลลาร์ที่ลงนามเมื่อวันที่ 24 ธันวาคม 2025 โดยชิปดังกล่าวเป็นหน่วยประมวลผลภาษา (LPU - Language Processing Unit) โดยอิงตาม SRAM ที่ Nvidia สร้างขึ้น ชิปนี้ถูกรวมเข้ากับแพลตฟอร์ม Vera Rubin ในฐานะตัวประมวลผลร่วมเฉพาะสำหรับขั้นตอนการถอดรหัส ผู้ผลิตประกาศกำหนดการจัดส่งที่คาดไว้ในไตรมาสที่สามของปี 2026 โดย Samsung จะเป็นผู้ผลิตด้วยเทคโนโลยีการผลิต 4 นาโนเมตร นอกจากนี้ยังเป็นผลิตภัณฑ์ระดับแร็คตัวแรกของ Nvidia ที่ออกแบบโดยใช้ซิลิคอนที่ไม่ใช่ GPU และการมาถึงของผลิตภัณฑ์นี้ได้กระตุ้นให้ Nvidia ต้องปรับเปลี่ยนลำดับการสั่งซื้อส่วนประกอบของตนเองในแผนงานด้วย

หัวใจสำคัญของ Groq 3 LPX คือชิป LP30: หน่วยความจำ SRAM 512 MB ต่อชิป และแบนด์วิดท์หน่วยความจำ 150 TB/s ต่อชิป เพื่อให้เห็นภาพชัดเจนขึ้น GPU Rubin ที่มีหน่วยความจำ HBM4 ขนาด 288 GB ให้แบนด์วิดท์ประมาณ 22 TB/s ความแตกต่างในระดับนี้ไม่ใช่เรื่องเล็กน้อย แต่เป็นทางเลือกทางสถาปัตยกรรม แร็ค LPX เต็มรูปแบบประกอบด้วย LPU 256 ตัว รวมเป็นหน่วยความจำ SRAM 128 GB และแบนด์วิดท์รวม 40 PB/s Nvidia อ้างว่า เมื่อรวมกับ Rubin NVL72 แล้ว แร็ค LPX จะให้ประสิทธิภาพต่อเมกะวัตต์สูงกว่า NVL72 เพียงอย่างเดียวถึง 35 เท่า ในแบบจำลองที่มีพารามิเตอร์นับล้านล้านตัว โดยมีเป้าหมายต้นทุนการดำเนินงานอยู่ที่ 45 ดอลลาร์ต่อโทเค็นหนึ่งล้านโทเค็น

Groq 3 และฟังก์ชันใน Rubin

ภาพจำลองโครงสร้างของ SuperPOD จาก Rubin rack — Nvidia ได้เปิดเผยกลยุทธ์ชิป Rubin SuperPOD จำนวน 7 ตัว ในงาน GTC 2026 (ที่มาของภาพ: Nvidia)

ในการทำงานที่วางแผนไว้ GPU Rubin จะจัดการขั้นตอนการเติมข้อมูลล่วงหน้า—ซึ่งประมวลผลบริบทที่ยาวและการคำนวณที่มีความหนาแน่นสูง—ในขณะที่ LPU Groq จะจัดการการถอดรหัสและการสร้างโทเค็นด้วยความหน่วงที่ลดลง Dynamo จะประสานการกระจายแบบไม่เป็นเนื้อเดียวกันนี้ โดยกำหนดงานตามขนาดของชุดข้อมูลและการทำงานแบบขนานเพื่อสร้างสมดุลระหว่างประสิทธิภาพและต้นทุนด้านพลังงาน

การออกแบบ LPU ดั้งเดิมของ Groq ให้ความสำคัญกับความแน่นอน: ไปป์ไลน์ VLIW (Very Long Instruction Word) พร้อมธนาคาร SRAM ขนาดใหญ่ และคอมไพเลอร์ที่วางแผนการทำงานล่วงหน้า ซึ่งช่วยขจัดปัญหาแคชพลาดและการหยุดทำงานที่ไม่คาดคิด ส่งผลให้มีอัตราโทเค็นต่อผู้ใช้สูงมาก แต่ก็เผยให้เห็นปัญหาด้านความจุ: รุ่นก่อนหน้าที่มี SRAM 230 MB ต่อชิป ต้องใช้ไดจำนวนมากเพื่อรองรับรุ่นขนาดกลาง และ สถาปัตยกรรม มันถูกสร้างขึ้นโดยมุ่งเน้นไปที่เครือข่ายประสาทเทียมแบบคอนโวลูชัน มากกว่าแบบจำลองภาษาสมัยใหม่

LP30 ช่วยลดข้อจำกัดบางประการเหล่านี้ด้วย SRAM ขนาด 512 MB ต่อชิป และความสามารถในการประมวลผล FP8 ที่ 1.23 PFLOPS ซัมซุงได้เพิ่มกำลังการผลิตจากประมาณ 9,000 แผ่นเวเฟอร์เป็นประมาณ 15,000 แผ่นเวเฟอร์ ตามประกาศ โดยเปลี่ยนจากการผลิตตัวอย่างไปสู่การผลิตเชิงพาณิชย์ ในงาน GTC ยังมีการประกาศด้วยว่า AWS จะติดตั้ง LPU Groq 3 ควบคู่ไปกับ GPU Nvidia มากกว่าหนึ่งล้านเครื่อง ซึ่งเป็นส่วนหนึ่งของการขยายโครงสร้างพื้นฐาน

นอกเหนือจาก LP30 แล้ว Nvidia ยังกล่าวถึงแผนผลิตภัณฑ์ในอนาคต ได้แก่ LP35 ที่รองรับ NVFP4 ซึ่งตั้งใจจะให้สอดคล้องกับสถาปัตยกรรม Rubin Ultra และ LP40 ที่วางแผนไว้สำหรับสถาปัตยกรรม Feynman ในภายหลัง

เกิดอะไรขึ้นกับ Rubin CPX บ้าง?

ที่ GTC การขาดหายไปของ Rubin CPX ซึ่งเป็นตัวเร่งความเร็วการอนุมานที่ใช้พื้นฐานจาก GDDR7 ที่ Nvidia มีการประกาศไปเมื่อเดือนกันยายน 2025 แต่ไม่ได้ปรากฏอยู่ในสไลด์หลักหรือบนเวที ทุกอย่างบ่งชี้—โดยที่ยังไม่มีการยืนยันอย่างเป็นทางการ—ว่า CPX ถูกถอดออกจากแผนงานและถูกแทนที่ในลำดับชั้นของแพลตฟอร์มด้วย LPX Groq 3 แล้ว

เดิมที CPX ถูกคิดค้นขึ้นเพื่อเป็นทางเลือกที่มีต้นทุนต่ำกว่าในการเร่งขั้นตอนการสร้างบริบทโดยใช้ GDDR7 โดยใช้ประโยชน์จากความพร้อมใช้งานที่มากกว่าเมื่อเผชิญกับปัญหาการขาดแคลน HBM อย่างไรก็ตาม LPU ของ Groq ช่วยลดความจำเป็นในการใช้โมดูลหน่วยความจำภายนอกขนาดใหญ่และให้แบนด์วิดท์ต่อชิปที่สูงกว่าอย่างมาก ซึ่งเป็นข้อได้เปรียบที่ชัดเจนในตลาดที่อุปทาน HBM ยังคงตึงตัวและการผลิต GDDR7 ยังอยู่ในช่วงการขยายตัว แม้ว่าหน่วย CPX ที่ส่งมอบให้กับลูกค้าแล้วอาจจะยังคงส่งมอบต่อไป แต่ดูเหมือนว่าความต้องการเชิงกลยุทธ์ในปัจจุบันกำลังเปลี่ยนไปสู่การรวม LPU มากขึ้น

นอกจากนี้ ยังมีความคล้ายคลึงกันในเชิงการดำเนินงานกับการเข้าซื้อกิจการ Mellanox ในปี 2019 กล่าวคือ เทคโนโลยีของสตาร์ทอัพที่ท้ายที่สุดแล้วได้ก่อตัวเป็นชั้นสถาปัตยกรรมใหม่ภายในโครงสร้างพื้นฐานของ Nvidia — ในกรณีของ NVLink/InfiniBand — และในสถานการณ์นี้ Groq ก็อาจกลายเป็นส่วนประกอบโครงสร้างที่คล้ายกันภายในระบบนิเวศของ Rubin ได้

การรวมตัวของตลาดชิปประมวลผลสัญญาณ

ข้อตกลงกับ Groq เป็นส่วนที่เห็นได้ชัดเจนที่สุดของการควบรวมกิจการในปี 2025 ที่มุ่งเน้นไปที่ชิปประมวลผลการอนุมาน (inference chips) ในปีนั้น AMD เข้าซื้อทีม Untether AI, Nvidia เข้าซื้ออุปกรณ์และทรัพย์สินทางปัญญาของ Enfabrica ในราคามากกว่า 900 ล้านดอลลาร์, Meta ซื้อ Rivos และมีการเจรจา—ซึ่งสุดท้ายก็ล้มเลิกไป—ระหว่าง Intel และ SambaNova ที่ส่งผลให้เกิดการลงทุนและการเป็นพันธมิตรมูลค่า 350 ล้านดอลลาร์ การเคลื่อนไหวนี้สะท้อนให้เห็นว่า การแข่งขันอย่างอิสระกับระบบนิเวศ CUDA และขนาดของ Nvidia นั้นเป็นความท้าทายทางเศรษฐกิจอย่างรุนแรง แม้ว่าเทคโนโลยีจะมีคุณค่าทางเทคนิคก็ตาม

รูปแบบที่เกิดขึ้นซ้ำๆ คือการที่ผู้เล่นรายใหญ่ดูดซับเอาความสามารถและเทคโนโลยีไป ตัวอย่างเช่น Groq คาดการณ์รายได้ไว้ประมาณ 500 ล้านยูโรภายในปี 2025 แต่ตัวเลขนั้นไม่เพียงพอที่จะรักษาความเป็นอิสระไว้ได้เมื่อเผชิญกับแรงกดดันเชิงกลยุทธ์จากผู้ผลิตรายใหญ่ นักวิเคราะห์ชี้ให้เห็นว่าข้อตกลงการอนุญาตให้ใช้สิทธิแบบไม่ผูกขาดนั้นช่วยรักษาภาพลักษณ์ของการแข่งขัน แต่ในทางปฏิบัติแล้วเป็นการทำให้คู่แข่งหมดอำนาจลงโดยการบูรณาการเทคโนโลยีของพวกเขาเข้ากับแพลตฟอร์มของผู้ซื้อ

ชิปซิลิคอนสั่งทำพิเศษสำหรับศูนย์ข้อมูลขนาดใหญ่

แผนภาพแผนงาน Meta MTIA สำหรับตัวเร่งการอนุมาน — Meta ได้นำเสนอแผนงาน MTIA ของตน ล่าสุด. (ที่มาของภาพ: Meta)

ในขณะที่บริษัทสตาร์ทอัพกำลังควบรวมกิจการเข้ากับบริษัทขนาดใหญ่ ผู้ให้บริการคลาวด์รายใหญ่ก็กำลังผลักดันไปป์ไลน์การประมวลผลซิลิคอนของตนเองเช่นกัน

Meta ประกาศเปิดตัว MTIA รุ่นต่อๆ ไปที่พัฒนาร่วมกับ Broadcom ตั้งแต่ MTIA 300 ซึ่งใช้งานจริงแล้วสำหรับการจัดอันดับและการแนะนำ ไปจนถึง MTIA 500 ที่มุ่งเน้นไปที่การอนุมานเชิงสร้างสรรค์และวางแผนที่จะใช้งานในวงกว้างในปี 2027 Google ยังคงรักษาผลิตภัณฑ์ TPU (Ironwood v7) ไว้ด้วยตัวเลข TFLOPS และกลุ่มอุปกรณ์ขนาดใหญ่ และ AWS ยังคงพัฒนา Trainium และ Inferentia ต่อไป แม้ว่าข้อมูลภายในจนถึงปี 2024 จะแสดงให้เห็นว่าการใช้งานค่อนข้างต่ำเมื่อเทียบกับ GPU ในโครงสร้างพื้นฐานของ AWS เอง

ผลสำรวจและการคาดการณ์จากภาคอุตสาหกรรมตอกย้ำความสำคัญของการกระจายความเสี่ยง: ในเดือนพฤศจิกายน 2025 Futurum Group จัดอันดับให้ตัวเร่งความเร็ว XPU เป็นกลุ่มที่มีการเติบโตเร็วที่สุดในด้านการใช้จ่ายในศูนย์ข้อมูลสำหรับปี 2026 และ TrendForce คาดการณ์ว่าการจัดส่ง ASIC แบบกำหนดเองโดยผู้ให้บริการคลาวด์จะเพิ่มขึ้นอย่างเห็นได้ชัดในปีเดียวกันนั้น

ปฏิกิริยาของ Nvidia นั้นชัดเจน: คือการรักษาความได้เปรียบของการมีชิปประมวลผลที่ไม่ใช่ GPU ในแพลตฟอร์มของตนก่อนที่บริษัทอื่นจะทำได้ Groq 3 LPU เป็นตัวอย่างที่จับต้องได้ของกลยุทธ์นั้น อย่างไรก็ตาม อนาคตของ Rubin CPX ยังคงไม่แน่นอนในขณะนี้

แบ่งปันสิ่งนี้: