🌟 xAI Colossus 的秘密:探索 Elon Musk 的 100,000 個 GPU AI 集群 🚀
如果你對人工智慧和尖端技術充滿熱情,你會情不自禁地了解 Elon Musk)正在用他的人工智慧集群做什麼。這個被稱為 xAI Colossus 的科技巨頭正在科技界引起不小的轟動。該集群擁有 10 萬個 GPU 的驚人處理能力,堪稱現代工程的真正奇蹟。 🤖💻
在本文中,我们将揭开这一惊人创新背后的秘密 技术性的. Exploraremos cómo xAI Colossus está revolucionando el campo de la inteligencia artificial y qué significa esto para el futuro. 🌟 Prepárate para un viaje fascinante al corazón de una de las mayores proezas 技术性的 我们这个时代的。 🚀 不要错过!
馬斯克 (Elon Musk) 耗資巨大的新項目 xAI Colossus AI 超級電腦首次詳細介紹。 YouTuber ServeTheHome 可以存取這台擁有 100,000 個 GPU 的 Supermicro 伺服器,展示了這台超級電腦的各個方面。馬斯克的 xAI Colossus 超級集群經過 122 天的組裝,已經上線近兩個月了。 🔧💡
100,000 個 GPU 叢集內部有什麼? 🤔
ServeTheHome 的 Patrick 用他的相机带我们参观了服务器的不同部分,提供了服务器操作的全景视图。虽然有些 细节 由于保密协议,超级计算机的更具体信息(例如其功耗和炸弹的大小)无法透露,xAI 在发布之前对视频的部分内容进行了模糊处理和审查。 🎥
尽管如此,最重要的是,像服务器 GPU 来自 Supermicro 的,在整个拍摄过程中几乎完好无损。这些 GPU 服务器 英伟达 HGX H100,一个强大的服务器解决方案,每个都有八个 H100 GPU。 🚀 HGX H100 平台集成在 4U 通用 GPU Liquid 系统中 冷却 来自 Supermicro,为每个 GPU 提供易于热插拔的液体冷却。 ❄️
这些服务器被组织在机架中,每个机架包含 8 台服务器,总共 64 GPU 按帧。每个 HGX H100 之间都夹有 1U 接头,为服务器提供必要的液体冷却。在每个机架的底部,我们发现另一个 Supermicro 4U 单元,这次配备了冗余泵系统和机架监控系统。 🔍


🖥️ 这些机架以 8 个为一组,可容纳 512 GPU 通过矩阵。每台服务器配备四个 电源 多余的。在货架后面 GPU其中有三相电源、以太网交换机、以及提供所有液体冷却的机架大小的歧管。 💧
Colossus 集群中有超过 1,500 个机架。 GPU, distribuidos en cerca de 200 conjuntos de bastidores. Según Jensen Huang, director ejecutivo de Nvidia, las GPU de estas 200 matrices se instalaron completamente en solo tres semanas. 🚀
由于 AI 超级集群不断训练模型需要巨大的带宽,xAI 在互联互通方面更进一步 红色的。每个显卡都有一个专用的 400GbE NIC(网络接口控制器),每个服务器还有一个额外的 400Gb NIC。 🔗 这意味着每个 HGX H100 服务器都有每秒 3.6 太比特的以太网。令人印象深刻,不是吗?是的,整个集群在以太网上运行,而不是超级计算领域的标准 InfiniBand 或其他奇特连接。 🌐


当然,像 Grok 3 聊天机器人这样训练 AI 模型的超级计算机需要的不仅仅是 GPU 以达到最佳功能。 🔥 虽然关于 Colossus 中的存储和 CPU 服务器的详细信息有些有限,但得益于 Patrick 的视频和 部落格文章,我們知道這些伺服器通常採用 Supermicro 機箱。 🚀
內部採用1U NVMe-forward伺服器,搭載x86平台CPU,同時提供儲存與運算能力,並配備後置液冷散熱。 💧 另外,在外面你可以看到非常緊湊的 Tesla Megapack 電池組。 ⚡️
该阵列的启停功能以及组之间的毫秒延迟对于传统电网或马斯克的柴油发电机来说太过分了。因此,多个 Tesla Megapack(每个容量为 3.9 MWh)被用作 红色的 电力和超级计算机。 🖥️🔋 这可确保最佳和高效的运行,避免中断。 🚦✨
🌟 Colossus 和 Musk 穩定超級電腦的使用🌟
据英伟达称,xAI Colossus 超级计算机是目前世界上最大的人工智能超级计算机。 🤯 虽然许多世界领先的超级计算机被承包商或学者用于研究天气模式、疾病或其他复杂任务,但 Colossus 全权负责训练 X(以前称为 Twitter)的各种人工智能模型。主要是 Grok 3,Elon 的“反唤醒”聊天机器人,仅适用于 X Premium 订阅者。 🤖
此外,ServeTheHome 获悉,Colossus 正在训练 人工智能模型 «del futuro»; modelos cuyos usos y capacidades supuestamente están más allá de las capacidades actuales de la IA. 🚀 La primera fase de construcción de Colossus está completa y el clúster está completamente operativo, pero aún no está todo terminado. La supercomputadora de Memphis pronto se actualizará para duplicar su capacidad de GPU, con 50.000 GPU H100 adicionales y 50.000 GPU H200 de próxima generación. 🔥
这 更新 它还将使其能源消耗增加一倍以上,这对于马斯克 7 月份在该地点添加的 14 台柴油发电机来说已经难以承受。 ⚡ 虽然这低于马斯克承诺的 Colossus 内 300,000 H200,但这可能是第三阶段的一部分 更新。 🔋
另一方面,特斯拉“Giga Texas”工厂的 5 万个 GPU Cortex 超级计算机也属于马斯克公司。 Cortex 致力于通过摄像头流和图像检测来训练特斯拉的自主人工智能技术,以及特斯拉的自主机器人和其他人工智能项目。 🤖🚗
此外,特斯拉很快就會在紐約州布法羅建造 Dojo 超級計算機,這是一個耗資 5 億美元的項目。 💸 同時,百度執行長李彥宏等產業投機者預測,當泡沫破裂時,99%的人工智慧公司可能會倒閉。馬斯克在人工智慧方面創紀錄的支出是否會適得其反或得到回報還有待觀察。 ⏳




















