ความลับของ xAI Colossus: 100,000 GPU

🌟 ความลับของ xAI Colossus: ค้นพบคลัสเตอร์ AI 100,000 GPU ของ Elon Musk 🚀

🌟 ความลับของ xAI Colossus: ค้นพบคลัสเตอร์ AI 100,000 GPU ของ Elon Musk 🚀

หากคุณหลงใหลเกี่ยวกับปัญญาประดิษฐ์และเทคโนโลยีล้ำสมัย คุณอดไม่ได้ที่จะค้นหาว่า Elon Musk กำลังทำอะไรกับคลัสเตอร์ AI ของเขา ยักษ์ใหญ่ด้านเทคโนโลยีรายนี้ที่รู้จักกันในชื่อ xAI Colossus กำลังสร้างความปั่นป่วนให้กับโลกแห่งเทคโนโลยี ด้วยพลังการประมวลผลอันน่าทึ่งที่ 100,000 GPU คลัสเตอร์นี้จึงเป็นความมหัศจรรย์ที่แท้จริงของวิศวกรรมสมัยใหม่

ในบทความนี้ เราจะเปิดเผยความลับเบื้องหลังนวัตกรรมที่น่าทึ่งนี้ เทคโนโลยี- เราจะสำรวจว่า xAI Colossus กำลังปฏิวัติวงการอย่างไร ปัญญาประดิษฐ์ และสิ่งนี้จะมีความหมายต่ออนาคตอย่างไร 🌟 เตรียมพร้อมสำหรับการเดินทางอันน่าหลงใหลสู่ใจกลางของหนึ่งในความสำเร็จที่ยิ่งใหญ่ที่สุด เทคโนโลยี ของเวลาของเรา 🚀 ห้ามพลาด!

โปรเจ็กต์ใหม่ที่มีราคาแพงของ Elon Musk นั่นคือซูเปอร์คอมพิวเตอร์ xAI Colossus AI ได้รับรายละเอียดเป็นครั้งแรก Youtuber ServeTheHome สามารถเข้าถึงเซิร์ฟเวอร์ Supermicro ภายในสัตว์ร้าย 100,000 ตัว จีพียูที่แสดงแง่มุมต่างๆ ของซูเปอร์คอมพิวเตอร์เครื่องนี้ ซูเปอร์คลัสเตอร์ xAI Colossus ของ Musk เปิดดำเนินการมาเกือบสองเดือนแล้ว หลังจากการประกอบที่ใช้เวลา 122 วัน

ภายในซูเปอร์คลัสเตอร์ AI ที่ใหญ่ที่สุดในโลก xAI Colossus – YouTube

มีอะไรอยู่ภายในคลัสเตอร์ 100,000 GPU?

Patrick จาก ServeTheHome พาเราไปทัวร์พร้อมกล้องผ่านส่วนต่างๆ ของเซิร์ฟเวอร์ โดยนำเสนอมุมมองการดำเนินงานแบบพาโนรามา แม้ว่าบาง รายละเอียด มีความเฉพาะเจาะจงมากขึ้นสำหรับซูเปอร์คอมพิวเตอร์ เช่น การใช้พลังงานและขนาดของระเบิด ไม่สามารถเปิดเผยได้เนื่องจากข้อตกลงการรักษาความลับ xAI ดูแลเรื่องการเบลอและเซ็นเซอร์บางส่วนของวิดีโอก่อนที่จะเผยแพร่

อย่างไรก็ตามสิ่งที่สำคัญที่สุดก็คือเซิร์ฟเวอร์ จีพียู จาก Supermicro ยังคงแทบไม่มีรอยเสียหายตลอดทั้งภาพ เซิร์ฟเวอร์ GPU เหล่านี้คือ NVIDIA HGX H100 โซลูชันเซิร์ฟเวอร์อันทรงพลังที่มี H100 GPU แปดตัวต่อตัว 🚀 แพลตฟอร์ม HGX H100 ได้รับการผสานรวมภายในระบบ 4U Universal GPU Liquid ระบายความร้อน จาก Supermicro ให้การระบายความร้อนด้วยของเหลวแบบ hot-swap ได้อย่างง่ายดายสำหรับ GPU แต่ละตัว

เซิร์ฟเวอร์เหล่านี้จัดวางในแร็ค โดยแต่ละแร็คมีเซิร์ฟเวอร์ 8 เครื่อง รวมเป็น 64 เครื่อง จีพียู โดยเฟรม ส่วนหัว 1U ถูกประกบไว้ระหว่าง HGX H100 แต่ละตัว เพื่อให้มีการระบายความร้อนด้วยของเหลวที่จำเป็นสำหรับเซิร์ฟเวอร์ ที่ด้านล่างของแต่ละชั้นวาง เราจะพบหน่วย Supermicro 4U อีกหน่วย โดยคราวนี้ติดตั้งระบบปั๊มสำรองและระบบตรวจสอบชั้นวางด้วย

แร็คเซิร์ฟเวอร์ xAI HGX H100 สี่ช่อง พร้อมความจุสำหรับเซิร์ฟเวอร์ละแปดเซิร์ฟเวอร์ (เครดิตภาพ: ServeTheHome) การเข้าถึงด้านหลังของเซิร์ฟเวอร์ xAI Colossus GPU สายอีเธอร์เน็ตเก้าเส้นออกมาจากเซิร์ฟเวอร์แต่ละตัว โดยมีแหล่งจ่ายไฟสี่ตัวในแต่ละเซิร์ฟเวอร์ ท่อจ่ายและท่อระบายความร้อนด้วยของเหลวก็มองเห็นได้เช่นกัน(เครดิตภาพ: ServeTheHome)

🖥️ ชั้นวางเหล่านี้จัดเป็นกลุ่มละ 8 ชั้น รองรับได้ 512 จีพียู โดยเมทริกซ์ แต่ละเซิร์ฟเวอร์มีอุปกรณ์สี่ชิ้น แหล่งจ่ายไฟ ซ้ำซ้อน ที่ด้านหลังของชั้นวางของ จีพียูมีแหล่งจ่ายไฟสามเฟส สวิตช์อีเทอร์เน็ต และท่อร่วมขนาดแร็คที่ทำหน้าที่ระบายความร้อนด้วยของเหลว

คลัสเตอร์ Colossus มีจำนวนชั้นวางมากกว่า 1,500 ชั้น จีพียู, กระจายเป็นชุดๆ ประมาณ 200 เฟรม. ตามที่เจนเซ่น หวง ซีอีโอของ เอ็นวิเดียGPU ของดาย 200 ดายเหล่านี้ได้รับการติดตั้งจนเสร็จสมบูรณ์ภายในเวลาเพียงสามสัปดาห์

เนื่องจากซูเปอร์คลัสเตอร์ AI ฝึกฝนโมเดลอย่างต่อเนื่องต้องใช้แบนด์วิดท์ขนาดใหญ่ xAI จึงก้าวไปอีกขั้นในการเชื่อมต่อกันของ ตาราง- การ์ดจอแต่ละอันจะมี NIC (ตัวควบคุมอินเทอร์เฟซเครือข่าย) 400GbE เฉพาะ พร้อมด้วย NIC อีก 400Gb ต่อเซิร์ฟเวอร์ 🔗 ซึ่งหมายความว่าเซิร์ฟเวอร์ HGX H100 แต่ละเครื่องมีอีเทอร์เน็ต 3.6 เทราบิตต่อวินาที น่าประทับใจใช่ไหมล่ะ? และใช่ คลัสเตอร์ทั้งหมดทำงานบนอีเทอร์เน็ต แทนที่จะใช้ InfiniBand หรือการเชื่อมต่อแปลกใหม่อื่นๆ ที่เป็นมาตรฐานในโลกของซูเปอร์คอมพิวเตอร์

ภาพถ่ายมองลงไปที่คลื่นและคลื่นของสายเคเบิลอีเธอร์เน็ตสีเหลืองที่เชื่อมต่อคลัสเตอร์ xAI Colossus เข้ากับตัวมันเอง สายเคเบิลที่มีความกว้างมากเกินไปหลายชั้นฝังอยู่บนเพดาน(เครดิตภาพ: ServeTheHome)เซิร์ฟเวอร์ประมวลผล Colossus CPU ของ xAI ซึ่งมีลักษณะเหมือนกับเซิร์ฟเวอร์จัดเก็บข้อมูลของ Supermicro ทุกประการ ก็มีการใช้กันอย่างแพร่หลายบนเว็บไซต์เช่นกัน(เครดิตภาพ: ServeTheHome)

แน่นอนว่าซูเปอร์คอมพิวเตอร์เช่นแชทบอท Grok 3 ซึ่งฝึกโมเดล AI จำเป็นต้องมีมากกว่าแค่ จีพียู เพื่อให้ทำหน้าที่ได้ดีที่สุด 🔥 แม้ว่ารายละเอียดเกี่ยวกับเซิร์ฟเวอร์ที่เก็บข้อมูลและ CPU ใน Colossus จะค่อนข้างจำกัด แต่ต้องขอบคุณวิดีโอของ Patrick และ โพสต์ในบล็อกเรารู้ว่าเซิร์ฟเวอร์เหล่านี้มักจะอยู่ในแชสซี Supermicro

เซิร์ฟเวอร์ส่งต่อ NVMe 1U พร้อม CPU แพลตฟอร์ม x86 ถูกใช้ภายใน โดยให้ทั้งพื้นที่จัดเก็บข้อมูลและความจุ คอมพิวเตอร์และติดตั้งระบบระบายความร้อนด้วยของเหลวที่ด้านหลัง 💧 นอกจากนี้ภายนอกยังมองเห็นธนาคารแห่ง แบตเตอรี่ Tesla Megapack ขนาดกะทัดรัดมาก

คุณลักษณะสตาร์ท-ดับของอาเรย์ซึ่งมีเวลาแฝงเป็นมิลลิวินาทีระหว่างธนาคาร ถือว่ามากเกินไปสำหรับระบบส่งไฟฟ้าแบบทั่วไปหรือเครื่องกำเนิดไฟฟ้าดีเซลของ Musk ด้วยเหตุนี้ Tesla Megapacks หลายตัว (แต่ละอันมีความจุ 3.9 MWh) จึงถูกใช้เป็นแหล่งพลังงานระดับกลางระหว่าง ตาราง ไฟฟ้าและซูเปอร์คอมพิวเตอร์ 🖥️🔋 ช่วยให้มั่นใจได้ถึงการทำงานที่เหมาะสมและมีประสิทธิภาพ โดยหลีกเลี่ยงการหยุดชะงัก

🌟 การใช้ซูเปอร์คอมพิวเตอร์ที่เสถียรของ Colossus และ Musk 🌟

ปัจจุบันซูเปอร์คอมพิวเตอร์ xAI Colossus อ้างอิงจาก Nvidia ซึ่งเป็นซูเปอร์คอมพิวเตอร์ AI ที่ใหญ่ที่สุดในโลก 🤯 แม้ว่าซูเปอร์คอมพิวเตอร์ชั้นนำของโลกจำนวนมากจะถูกใช้ในการวิจัยโดยผู้รับเหมาหรือนักวิชาการ เพื่อศึกษารูปแบบสภาพอากาศ โรค หรืองานที่ซับซ้อนอื่นๆ Colossus มีหน้าที่รับผิดชอบแต่เพียงผู้เดียวในการฝึกอบรมโมเดล AI ต่างๆ ของ X (เดิมชื่อ Twitter) ส่วนใหญ่เป็น Grok 3 ซึ่งเป็นแชทบอท "ป้องกันการตื่น" ของ Elon ที่มีให้เฉพาะสมาชิก X Premium เท่านั้น

นอกจากนี้ ServeTheHome ยังได้รับแจ้งว่า Colossus กำลังฝึกอบรม โมเดลเอไอ «ของอนาคต»; โมเดลที่มีการใช้งานและความสามารถที่คาดว่าจะเกินขีดความสามารถของ AI ในปัจจุบัน 🚀 เฟสแรกของการก่อสร้าง Colossus เสร็จสมบูรณ์แล้วและคลัสเตอร์ก็ใช้งานได้เต็มรูปแบบ แต่ยังไม่เสร็จสิ้นทั้งหมด ซูเปอร์คอมพิวเตอร์เมมฟิสจะมาถึงเร็วๆ นี้ จะอัปเดต เพื่อเพิ่มความจุ GPU เป็นสองเท่าด้วย H100 GPU เพิ่มเติม 50,000 ตัว และ H200 GPU รุ่นต่อไปอีก 50,000 ตัว

นี้ อัปเดต นอกจากนี้ยังจะเพิ่มการใช้พลังงานมากกว่าสองเท่า ซึ่งมากเกินไปสำหรับเครื่องกำเนิดไฟฟ้าดีเซล 14 เครื่องที่ Musk เพิ่มเข้ามาในโรงงานเมื่อเดือนกรกฎาคมที่จะจัดการ ⚡ แม้ว่าจะต่ำกว่าคำสัญญาของ Musk ที่จะผลิต H200 300,000 ตัวภายใน Colossus แต่นั่นอาจเป็นส่วนหนึ่งของระยะที่ 3 ของ อัปเดต-

ในทางกลับกัน ซูเปอร์คอมพิวเตอร์ Cortex ขนาด 50,000 GPU ที่โรงงาน "Giga Texas" ของ Tesla ก็เป็นของบริษัท Musk เช่นกัน Cortex ทุ่มเทให้กับการฝึกอบรม เทคโนโลยี เทคโนโลยี AI อัตโนมัติของ Tesla ผ่านการสตรีมกล้องและการตรวจจับภาพ รวมถึงหุ่นยนต์อัตโนมัติของ Tesla และโครงการ AI อื่นๆ

นอกจากนี้ Tesla จะได้เห็นการก่อสร้างซูเปอร์คอมพิวเตอร์ Dojo ในเมืองบัฟฟาโล รัฐนิวยอร์ก เร็วๆ นี้ ซึ่งเป็นโครงการมูลค่า 500 ล้านดอลลาร์ในเร็วๆ นี้ 💸 ในขณะเดียวกัน นักเก็งกำไรในอุตสาหกรรมอย่าง Robin Li ซีอีโอของ Baidu คาดการณ์ว่า 99% ของบริษัท AI อาจล่มสลายเมื่อฟองสบู่แตก คงต้องรอดูกันว่าการใช้จ่ายด้าน AI ของ Musk จะส่งผลย้อนกลับหรือให้ผลตอบแทนที่คุ้มค่าหรือไม่

5 3 โหวต
การจัดอันดับบทความ
สมัครสมาชิก
แจ้งให้ทราบ
แขก

0 ความคิดเห็น
เก่าแก่ที่สุด
ใหม่ล่าสุด โหวตมากที่สุด
ความคิดเห็นออนไลน์
ดูความคิดเห็นทั้งหมด