ความลับของ xAI Colossus: 100,000 GPU

🌟 ความลับของ xAI Colossus: ค้นพบคลัสเตอร์ AI 100,000 GPU ของ Elon Musk 🚀

🌟 ความลับของ xAI Colossus: ค้นพบคลัสเตอร์ AI 100,000 GPU ของ Elon Musk 🚀

หากคุณหลงใหลเกี่ยวกับปัญญาประดิษฐ์และเทคโนโลยีล้ำสมัย คุณอดไม่ได้ที่จะค้นหาว่า Elon Musk กำลังทำอะไรกับคลัสเตอร์ AI ของเขา ยักษ์ใหญ่ด้านเทคโนโลยีรายนี้ที่รู้จักกันในชื่อ xAI Colossus กำลังสร้างความปั่นป่วนให้กับโลกแห่งเทคโนโลยี ด้วยพลังการประมวลผลอันน่าทึ่งที่ 100,000 GPU คลัสเตอร์นี้จึงเป็นความมหัศจรรย์ที่แท้จริงของวิศวกรรมสมัยใหม่

ในบทความนี้ เราจะเปิดเผยความลับเบื้องหลังนวัตกรรมที่น่าทึ่งนี้ เทคโนโลยี- เราจะสำรวจว่า xAI Colossus กำลังปฏิวัติวงการอย่างไร ปัญญาประดิษฐ์ และสิ่งนี้จะมีความหมายต่ออนาคตอย่างไร 🌟 เตรียมพร้อมสำหรับการเดินทางอันน่าหลงใหลสู่ใจกลางของหนึ่งในความสำเร็จที่ยิ่งใหญ่ที่สุด เทคโนโลยี ของเวลาของเรา 🚀 ห้ามพลาด!

โปรเจ็กต์ใหม่ที่มีราคาแพงของ Elon Musk นั่นคือซูเปอร์คอมพิวเตอร์ xAI Colossus AI ได้รับรายละเอียดเป็นครั้งแรก Youtuber ServeTheHome สามารถเข้าถึงเซิร์ฟเวอร์ Supermicro ภายในสัตว์ร้าย 100,000 ตัว จีพียูที่แสดงแง่มุมต่างๆ ของซูเปอร์คอมพิวเตอร์เครื่องนี้ ซูเปอร์คลัสเตอร์ xAI Colossus ของ Musk เปิดดำเนินการมาเกือบสองเดือนแล้ว หลังจากการประกอบที่ใช้เวลา 122 วัน

ภายในซูเปอร์คลัสเตอร์ AI ที่ใหญ่ที่สุดในโลก xAI Colossus – YouTube

มีอะไรอยู่ภายในคลัสเตอร์ 100,000 GPU?

Patrick จาก ServeTheHome พาเราไปทัวร์พร้อมกล้องผ่านส่วนต่างๆ ของเซิร์ฟเวอร์ โดยนำเสนอมุมมองการดำเนินงานแบบพาโนรามา แม้ว่าบาง รายละเอียด มีความเฉพาะเจาะจงมากขึ้นสำหรับซูเปอร์คอมพิวเตอร์ เช่น การใช้พลังงานและขนาดของระเบิด ไม่สามารถเปิดเผยได้เนื่องจากข้อตกลงการรักษาความลับ xAI ดูแลเรื่องการเบลอและเซ็นเซอร์บางส่วนของวิดีโอก่อนที่จะเผยแพร่

อย่างไรก็ตาม สิ่งที่สำคัญที่สุด เช่น เซิร์ฟเวอร์ GPU ของ Supermicro ยังคงสภาพสมบูรณ์เป็นส่วนใหญ่ในวิดีโอ เซิร์ฟเวอร์ GPU เหล่านี้คือ NVIDIA HGX H100 โซลูชันเซิร์ฟเวอร์อันทรงพลังที่มี H100 GPU แปดตัวต่อตัว 🚀 แพลตฟอร์ม HGX H100 ได้รับการผสานรวมภายในระบบ 4U Universal GPU Liquid ระบายความร้อน จาก Supermicro ให้การระบายความร้อนด้วยของเหลวแบบ hot-swap ได้อย่างง่ายดายสำหรับ GPU แต่ละตัว

เซิร์ฟเวอร์เหล่านี้ถูกจัดเป็นชั้นวางซึ่งมีเซิร์ฟเวอร์แปดเครื่องในแต่ละแร็ค รวมเป็น 64 GPU ต่อแร็ค ตัวรวบรวม 1U ประกบอยู่ระหว่าง HGX H100 แต่ละตัว ซึ่งช่วยระบายความร้อนด้วยของเหลวที่จำเป็นสำหรับเซิร์ฟเวอร์ ที่ด้านล่างของแต่ละชั้นวาง เราจะพบยูนิต Supermicro ขนาด 4U อีกเครื่อง ซึ่งคราวนี้ติดตั้งระบบปั๊มสำรองและระบบตรวจสอบชั้นวาง

แร็คเซิร์ฟเวอร์ xAI HGX H100 สี่ช่อง พร้อมความจุสำหรับเซิร์ฟเวอร์ละแปดเซิร์ฟเวอร์ (เครดิตภาพ: ServeTheHome) การเข้าถึงด้านหลังของเซิร์ฟเวอร์ xAI Colossus GPU สายอีเธอร์เน็ตเก้าเส้นออกมาจากเซิร์ฟเวอร์แต่ละตัว โดยมีแหล่งจ่ายไฟสี่ตัวในแต่ละเซิร์ฟเวอร์ ท่อจ่ายและท่อระบายความร้อนด้วยของเหลวก็มองเห็นได้เช่นกัน(เครดิตภาพ: ServeTheHome)

🖥️ Estos bastidores están organizados en grupos de ocho, lo que permite tener 512 GPU por matriz. Cada servidor está equipado con cuatro fuentes de alimentación redundantes. En la parte posterior de los bastidores de GPU, se encuentran fuentes de alimentación trifásicas, conmutadores Ethernet y un colector del tamaño de un bastidor que proporciona toda la refrigeración líquida. 💧

มีแร็ค GPU มากกว่า 1,500 ตัวในคลัสเตอร์ Colossus ซึ่งกระจายอยู่ในชุดแร็คเกือบ 200 ชุด เจนเซ่น ฮวง ซีอีโอของ เอ็นวิเดียGPU ของดาย 200 ดายเหล่านี้ได้รับการติดตั้งจนเสร็จสมบูรณ์ภายในเวลาเพียงสามสัปดาห์

เนื่องจากซูเปอร์คลัสเตอร์ AI ที่ฝึกฝนโมเดลอย่างต่อเนื่องต้องใช้แบนด์วิธสูง xAI จึงก้าวไปอีกขั้นในการเชื่อมต่อระหว่างเครือข่าย แต่ละ กราฟิกการ์ด มี 400 GbE NIC เฉพาะ (ตัวควบคุมอินเทอร์เฟซเครือข่าย) พร้อมด้วย NIC เพิ่มเติม 400 Gb ต่อเซิร์ฟเวอร์ 🔗 ซึ่งหมายความว่าเซิร์ฟเวอร์ HGX H100 แต่ละเซิร์ฟเวอร์มีอีเธอร์เน็ต 3.6 เทราบิตต่อวินาที น่าประทับใจใช่ไหม? ใช่แล้ว คลัสเตอร์ทั้งหมดทำงานบนอีเธอร์เน็ต แทนที่จะเป็น InfiniBand หรือการเชื่อมต่อแปลกใหม่อื่นๆ ที่เป็นมาตรฐานในพื้นที่ซูเปอร์คอมพิวเตอร์

ภาพถ่ายมองลงไปที่คลื่นและคลื่นของสายเคเบิลอีเธอร์เน็ตสีเหลืองที่เชื่อมต่อคลัสเตอร์ xAI Colossus เข้ากับตัวมันเอง สายเคเบิลที่มีความกว้างมากเกินไปหลายชั้นฝังอยู่บนเพดาน(เครดิตภาพ: ServeTheHome)เซิร์ฟเวอร์ประมวลผล Colossus CPU ของ xAI ซึ่งมีลักษณะเหมือนกับเซิร์ฟเวอร์จัดเก็บข้อมูลของ Supermicro ทุกประการ ก็มีการใช้กันอย่างแพร่หลายบนเว็บไซต์เช่นกัน(เครดิตภาพ: ServeTheHome)

แน่นอนว่าซูเปอร์คอมพิวเตอร์อย่างแชทบอต Grok 3 ซึ่งฝึกโมเดล AI นั้นต้องการมากกว่า GPU เพื่อให้ทำงานได้ดีที่สุด 🔥 แม้ว่ารายละเอียดเกี่ยวกับพื้นที่เก็บข้อมูลและเซิร์ฟเวอร์ CPU บน Colossus ค่อนข้างจำกัด ต้องขอบคุณวิดีโอของ Patrick และ โพสต์ในบล็อกเรารู้ว่าเซิร์ฟเวอร์เหล่านี้มักจะอยู่ในแชสซี Supermicro

เซิร์ฟเวอร์ส่งต่อ NVMe 1U พร้อม CPU แพลตฟอร์ม x86 ถูกใช้ภายใน โดยให้ทั้งพื้นที่จัดเก็บข้อมูลและความจุ คอมพิวเตอร์และติดตั้งระบบระบายความร้อนด้วยของเหลวที่ด้านหลัง 💧 นอกจากนี้ภายนอกยังมองเห็นธนาคารแห่ง แบตเตอรี่ Tesla Megapack ขนาดกะทัดรัดมาก

คุณลักษณะสตาร์ท-ดับของอาเรย์ซึ่งมีเวลาแฝงเป็นมิลลิวินาทีระหว่างธนาคาร ถือว่ามากเกินไปสำหรับระบบส่งไฟฟ้าแบบทั่วไปหรือเครื่องกำเนิดไฟฟ้าดีเซลของ Musk ด้วยเหตุนี้ Tesla Megapacks หลายตัว (แต่ละอันมีความจุ 3.9 MWh) จึงถูกใช้เป็นแหล่งพลังงานระดับกลางระหว่าง ตาราง ไฟฟ้าและซูเปอร์คอมพิวเตอร์ 🖥️🔋 ช่วยให้มั่นใจได้ถึงการทำงานที่เหมาะสมและมีประสิทธิภาพ โดยหลีกเลี่ยงการหยุดชะงัก

🌟 การใช้ซูเปอร์คอมพิวเตอร์ที่เสถียรของ Colossus และ Musk 🌟

ปัจจุบันซูเปอร์คอมพิวเตอร์ xAI Colossus อ้างอิงจาก Nvidia ซึ่งเป็นซูเปอร์คอมพิวเตอร์ AI ที่ใหญ่ที่สุดในโลก 🤯 แม้ว่าซูเปอร์คอมพิวเตอร์ชั้นนำของโลกจำนวนมากจะถูกใช้ในการวิจัยโดยผู้รับเหมาหรือนักวิชาการ เพื่อศึกษารูปแบบสภาพอากาศ โรค หรืองานที่ซับซ้อนอื่นๆ Colossus มีหน้าที่รับผิดชอบแต่เพียงผู้เดียวในการฝึกอบรมโมเดล AI ต่างๆ ของ X (เดิมชื่อ Twitter) ส่วนใหญ่เป็น Grok 3 ซึ่งเป็นแชทบอท "ป้องกันการตื่น" ของ Elon ที่มีให้เฉพาะสมาชิก X Premium เท่านั้น

นอกจากนี้ ServeTheHome ยังได้รับแจ้งว่า Colossus กำลังฝึกอบรมโมเดล AI "แห่งอนาคต"; โมเดลที่มีการใช้งานและความสามารถเกินกว่าความสามารถปัจจุบันของ AI 🚀 การก่อสร้าง Colossus ระยะแรกเสร็จสมบูรณ์แล้ว และคลัสเตอร์ก็ใช้งานได้เต็มรูปแบบ แต่ยังไม่เสร็จสิ้นทั้งหมด ซูเปอร์คอมพิวเตอร์เมมฟิสจะเปิดตัวเร็วๆ นี้ จะอัปเดต เพื่อเพิ่มความจุ GPU เป็นสองเท่าด้วย H100 GPU เพิ่มเติม 50,000 ตัว และ H200 GPU รุ่นต่อไปอีก 50,000 ตัว

นี้ อัปเดต นอกจากนี้ยังจะเพิ่มการใช้พลังงานมากกว่าสองเท่า ซึ่งมากเกินไปสำหรับเครื่องกำเนิดไฟฟ้าดีเซล 14 เครื่องที่ Musk เพิ่มเข้ามาในโรงงานเมื่อเดือนกรกฎาคมที่จะจัดการ ⚡ แม้ว่าจะต่ำกว่าคำสัญญาของ Musk ที่จะผลิต H200 300,000 ตัวภายใน Colossus แต่นั่นอาจเป็นส่วนหนึ่งของระยะที่ 3 ของ อัปเดต-

ในทางกลับกัน ซูเปอร์คอมพิวเตอร์ Cortex ขนาด 50,000 GPU ที่โรงงาน "Giga Texas" ของ Tesla ก็เป็นของบริษัท Musk เช่นกัน Cortex ทุ่มเทให้กับการฝึกอบรม เทคโนโลยี เทคโนโลยี AI อัตโนมัติของ Tesla ผ่านการสตรีมกล้องและการตรวจจับภาพ รวมถึงหุ่นยนต์อัตโนมัติของ Tesla และโครงการ AI อื่นๆ

นอกจากนี้ Tesla จะได้เห็นการก่อสร้างซูเปอร์คอมพิวเตอร์ Dojo ในเมืองบัฟฟาโล รัฐนิวยอร์ก เร็วๆ นี้ ซึ่งเป็นโครงการมูลค่า 500 ล้านดอลลาร์ในเร็วๆ นี้ 💸 ในขณะเดียวกัน นักเก็งกำไรในอุตสาหกรรมอย่าง Robin Li ซีอีโอของ Baidu คาดการณ์ว่า 99% ของบริษัท AI อาจล่มสลายเมื่อฟองสบู่แตก คงต้องรอดูกันว่าการใช้จ่ายด้าน AI ของ Musk จะส่งผลย้อนกลับหรือให้ผลตอบแทนที่คุ้มค่าหรือไม่

5 3 โหวต
การจัดอันดับบทความ
สมัครสมาชิก
แจ้งให้ทราบ
แขก

0 ความคิดเห็น
เก่าแก่ที่สุด
ใหม่ล่าสุด โหวตมากที่สุด
ความคิดเห็นออนไลน์
ดูความคิดเห็นทั้งหมด