🌟 ความลับของ xAI Colossus: ค้นพบคลัสเตอร์ AI 100,000 GPU ของ Elon Musk 🚀
หากคุณหลงใหลเกี่ยวกับปัญญาประดิษฐ์และเทคโนโลยีล้ำสมัย คุณอดไม่ได้ที่จะค้นหาว่า Elon Musk กำลังทำอะไรกับคลัสเตอร์ AI ของเขา ยักษ์ใหญ่ด้านเทคโนโลยีรายนี้ที่รู้จักกันในชื่อ xAI Colossus กำลังสร้างความปั่นป่วนให้กับโลกแห่งเทคโนโลยี ด้วยพลังการประมวลผลอันน่าทึ่งที่ 100,000 GPU คลัสเตอร์นี้จึงเป็นความมหัศจรรย์ที่แท้จริงของวิศวกรรมสมัยใหม่
ในบทความนี้ เราจะเปิดเผยความลับเบื้องหลังนวัตกรรมที่น่าทึ่งนี้ เทคโนโลยี- เราจะสำรวจว่า xAI Colossus กำลังปฏิวัติวงการปัญญาประดิษฐ์อย่างไร และสิ่งนี้จะมีความหมายต่ออนาคตอย่างไร 🌟 เตรียมพร้อมสำหรับการเดินทางอันน่าหลงใหลสู่ใจกลางของหนึ่งในความสำเร็จที่ยิ่งใหญ่ที่สุด เทคโนโลยี ของเวลาของเรา 🚀 ห้ามพลาด!
โปรเจ็กต์ใหม่ที่มีราคาแพงของ Elon Musk นั่นคือซูเปอร์คอมพิวเตอร์ xAI Colossus AI ได้รับรายละเอียดเป็นครั้งแรก YouTuber ServeTheHome สามารถเข้าถึงเซิร์ฟเวอร์ Supermicro ภายใน GPU 100,000 ตัว ซึ่งแสดงให้เห็นแง่มุมต่างๆ ของซูเปอร์คอมพิวเตอร์เครื่องนี้ ซูเปอร์คลัสเตอร์ xAI Colossus ของ Musk เปิดดำเนินการมาเกือบสองเดือนแล้ว หลังจากการประกอบที่ใช้เวลา 122 วัน
มีอะไรอยู่ภายในคลัสเตอร์ 100,000 GPU?
Patrick จาก ServeTheHome พาเราไปทัวร์พร้อมกล้องผ่านส่วนต่างๆ ของเซิร์ฟเวอร์ โดยนำเสนอมุมมองการดำเนินงานแบบพาโนรามา แม้ว่าบาง รายละเอียด มีความเฉพาะเจาะจงมากขึ้นสำหรับซูเปอร์คอมพิวเตอร์ เช่น การใช้พลังงานและขนาดของระเบิด ไม่สามารถเปิดเผยได้เนื่องจากข้อตกลงการรักษาความลับ xAI ดูแลเรื่องการเบลอและเซ็นเซอร์บางส่วนของวิดีโอก่อนที่จะเผยแพร่
อย่างไรก็ตามสิ่งที่สำคัญที่สุดก็คือเซิร์ฟเวอร์ จีพียู จาก Supermicro ยังคงแทบไม่มีรอยเสียหายตลอดทั้งภาพ เซิร์ฟเวอร์ GPU เหล่านี้คือ NVIDIA HGX H100 โซลูชันเซิร์ฟเวอร์อันทรงพลังที่มี H100 GPU แปดตัวต่อตัว 🚀 แพลตฟอร์ม HGX H100 ได้รับการผสานรวมภายในระบบ 4U Universal GPU Liquid ระบายความร้อน จาก Supermicro ให้การระบายความร้อนด้วยของเหลวแบบ hot-swap ได้อย่างง่ายดายสำหรับ GPU แต่ละตัว
เซิร์ฟเวอร์เหล่านี้จัดวางในแร็ค โดยแต่ละแร็คมีเซิร์ฟเวอร์ 8 เครื่อง รวมเป็น 64 เครื่อง จีพียู โดยเฟรม ส่วนหัว 1U ถูกประกบไว้ระหว่าง HGX H100 แต่ละตัว เพื่อให้มีการระบายความร้อนด้วยของเหลวที่จำเป็นสำหรับเซิร์ฟเวอร์ ที่ด้านล่างของแต่ละชั้นวาง เราจะพบหน่วย Supermicro 4U อีกหน่วย โดยคราวนี้ติดตั้งระบบปั๊มสำรองและระบบตรวจสอบชั้นวางด้วย


🖥️ ชั้นวางเหล่านี้จัดเป็นกลุ่มละ 8 ชั้น รองรับได้ 512 จีพียู โดยเมทริกซ์ แต่ละเซิร์ฟเวอร์มีอุปกรณ์สี่ชิ้น แหล่งจ่ายไฟ ซ้ำซ้อน ที่ด้านหลังของชั้นวางของ จีพียูมีแหล่งจ่ายไฟสามเฟส สวิตช์อีเทอร์เน็ต และท่อร่วมขนาดแร็คที่ทำหน้าที่ระบายความร้อนด้วยของเหลว
คลัสเตอร์ Colossus มีจำนวนชั้นวางมากกว่า 1,500 ชั้น จีพียู, distribuidos en cerca de 200 conjuntos de bastidores. Según Jensen Huang, director ejecutivo de Nvidia, las GPU de estas 200 matrices se instalaron completamente en solo tres semanas. 🚀
เนื่องจากซูเปอร์คลัสเตอร์ AI ฝึกฝนโมเดลอย่างต่อเนื่องต้องใช้แบนด์วิดท์ขนาดใหญ่ xAI จึงก้าวไปอีกขั้นในการเชื่อมต่อกันของ สีแดง- การ์ดจอแต่ละอันจะมี NIC (ตัวควบคุมอินเทอร์เฟซเครือข่าย) 400GbE เฉพาะ พร้อมด้วย NIC อีก 400Gb ต่อเซิร์ฟเวอร์ 🔗 ซึ่งหมายความว่าเซิร์ฟเวอร์ HGX H100 แต่ละเครื่องมีอีเทอร์เน็ต 3.6 เทราบิตต่อวินาที น่าประทับใจใช่ไหมล่ะ? และใช่ คลัสเตอร์ทั้งหมดทำงานบนอีเทอร์เน็ต แทนที่จะใช้ InfiniBand หรือการเชื่อมต่อแปลกใหม่อื่นๆ ที่เป็นมาตรฐานในโลกของซูเปอร์คอมพิวเตอร์


แน่นอนว่าซูเปอร์คอมพิวเตอร์เช่นแชทบอท Grok 3 ซึ่งฝึกโมเดล AI จำเป็นต้องมีมากกว่าแค่ จีพียู เพื่อให้ทำหน้าที่ได้ดีที่สุด 🔥 แม้ว่ารายละเอียดเกี่ยวกับเซิร์ฟเวอร์ที่เก็บข้อมูลและ CPU ใน Colossus จะค่อนข้างจำกัด แต่ต้องขอบคุณวิดีโอของ Patrick และ โพสต์ในบล็อกเรารู้ว่าเซิร์ฟเวอร์เหล่านี้มักจะอยู่ในแชสซี Supermicro
เซิร์ฟเวอร์ 1U NVMe-forward ที่มี CPU แพลตฟอร์ม x86 ถูกใช้ภายใน ให้ทั้งพื้นที่จัดเก็บข้อมูลและความสามารถในการประมวลผล และติดตั้งระบบระบายความร้อนด้วยของเหลวที่ด้านหลัง 💧 นอกจากนี้ ภายนอกคุณยังมองเห็นแบตเตอรี Tesla Megapack ที่มีขนาดกะทัดรัดมาก
คุณลักษณะสตาร์ท-ดับของอาเรย์ซึ่งมีเวลาแฝงเป็นมิลลิวินาทีระหว่างธนาคาร ถือว่ามากเกินไปสำหรับระบบส่งไฟฟ้าแบบทั่วไปหรือเครื่องกำเนิดไฟฟ้าดีเซลของ Musk ด้วยเหตุนี้ Tesla Megapacks หลายตัว (แต่ละอันมีความจุ 3.9 MWh) จึงถูกใช้เป็นแหล่งพลังงานระดับกลางระหว่าง สีแดง ไฟฟ้าและซูเปอร์คอมพิวเตอร์ 🖥️🔋 ช่วยให้มั่นใจได้ถึงการทำงานที่เหมาะสมและมีประสิทธิภาพ โดยหลีกเลี่ยงการหยุดชะงัก
🌟 การใช้ซูเปอร์คอมพิวเตอร์ที่เสถียรของ Colossus และ Musk 🌟
ปัจจุบันซูเปอร์คอมพิวเตอร์ xAI Colossus อ้างอิงจาก Nvidia ซึ่งเป็นซูเปอร์คอมพิวเตอร์ AI ที่ใหญ่ที่สุดในโลก 🤯 แม้ว่าซูเปอร์คอมพิวเตอร์ชั้นนำของโลกจำนวนมากจะถูกใช้ในการวิจัยโดยผู้รับเหมาหรือนักวิชาการ เพื่อศึกษารูปแบบสภาพอากาศ โรค หรืองานที่ซับซ้อนอื่นๆ Colossus มีหน้าที่รับผิดชอบแต่เพียงผู้เดียวในการฝึกอบรมโมเดล AI ต่างๆ ของ X (เดิมชื่อ Twitter) ส่วนใหญ่เป็น Grok 3 ซึ่งเป็นแชทบอท "ป้องกันการตื่น" ของ Elon ที่มีให้เฉพาะสมาชิก X Premium เท่านั้น
นอกจากนี้ ServeTheHome ยังได้รับแจ้งว่า Colossus กำลังฝึกอบรม โมเดลเอไอ «del futuro»; modelos cuyos usos y capacidades supuestamente están más allá de las capacidades actuales de la IA. 🚀 La primera fase de construcción de Colossus está completa y el clúster está completamente operativo, pero aún no está todo terminado. La supercomputadora de Memphis pronto se actualizará para duplicar su capacidad de GPU, con 50.000 GPU H100 adicionales y 50.000 GPU H200 de próxima generación. 🔥
นี้ อัปเดต นอกจากนี้ยังจะเพิ่มการใช้พลังงานมากกว่าสองเท่า ซึ่งมากเกินไปสำหรับเครื่องกำเนิดไฟฟ้าดีเซล 14 เครื่องที่ Musk เพิ่มเข้ามาในโรงงานเมื่อเดือนกรกฎาคมที่จะจัดการ ⚡ แม้ว่าจะต่ำกว่าคำสัญญาของ Musk ที่จะผลิต H200 300,000 ตัวภายใน Colossus แต่นั่นอาจเป็นส่วนหนึ่งของระยะที่ 3 ของ อัปเดต-
ในทางกลับกัน ซูเปอร์คอมพิวเตอร์ Cortex ขนาด 50,000 GPU ที่โรงงาน "Giga Texas" ของ Tesla ก็เป็นของบริษัท Musk เช่นกัน Cortex ทุ่มเทให้กับการฝึกอบรมเทคโนโลยี AI อัตโนมัติของ Tesla ผ่านการสตรีมกล้องและการตรวจจับภาพ รวมถึงหุ่นยนต์อัตโนมัติของ Tesla และโครงการ AI อื่นๆ
นอกจากนี้ Tesla จะได้เห็นการก่อสร้างซูเปอร์คอมพิวเตอร์ Dojo ในเมืองบัฟฟาโล รัฐนิวยอร์ก เร็วๆ นี้ ซึ่งเป็นโครงการมูลค่า 500 ล้านดอลลาร์ในเร็วๆ นี้ 💸 ในขณะเดียวกัน นักเก็งกำไรในอุตสาหกรรมอย่าง Robin Li ซีอีโอของ Baidu คาดการณ์ว่า 99% ของบริษัท AI อาจล่มสลายเมื่อฟองสบู่แตก คงต้องรอดูกันว่าการใช้จ่ายด้าน AI ของ Musk จะส่งผลย้อนกลับหรือให้ผลตอบแทนที่คุ้มค่าหรือไม่




















