🌟 xAI Colossus 的秘密:探索 Elon Musk 的 100,000 個 GPU AI 集群 🚀
如果你對人工智慧和尖端技術充滿熱情,你會情不自禁地了解 Elon Musk)正在用他的人工智慧集群做什麼。這個被稱為 xAI Colossus 的科技巨頭正在科技界引起不小的轟動。該集群擁有 10 萬個 GPU 的驚人處理能力,堪稱現代工程的真正奇蹟。 🤖💻
在本文中,我们将揭开这一惊人创新背后的秘密 技术性的。我们将探讨 xAI Colossus 如何彻底改变该领域 人工智能 以及这对未来意味着什么。 🌟 准备好踏上一段迷人的旅程,前往最伟大的壮举之一的核心 技术性的 我们这个时代的。 🚀 不要错过!
埃隆·马斯克 (Elon Musk) 耗资巨大的新项目 xAI Colossus AI 超级计算机首次详细介绍。 Youtuber ServeTheHome 可以访问 100,000 头野兽中的 Supermicro 服务器 图形处理器,展示了这台超级计算机的各个方面。马斯克的 xAI Colossus 超级集群经过 122 天的组装,已经上线近两个月了。 🔧💡
100,000 個 GPU 叢集內部有什麼? 🤔
ServeTheHome 的 Patrick 用他的相机带我们参观了服务器的不同部分,提供了服务器操作的全景视图。虽然有些 细节 由于保密协议,超级计算机的更具体信息(例如其功耗和炸弹的大小)无法透露,xAI 在发布之前对视频的部分内容进行了模糊处理和审查。 🎥
尽管如此,最重要的是,像服务器 图形处理器 来自 Supermicro 的,在整个拍摄过程中几乎完好无损。这些 GPU 服务器 英伟达 HGX H100,一个强大的服务器解决方案,每个都有八个 H100 GPU。 🚀 HGX H100 平台集成在 4U 通用 GPU Liquid 系统中 冷却 来自 Supermicro,为每个 GPU 提供易于热插拔的液体冷却。 ❄️
这些服务器被组织在机架中,每个机架包含 8 台服务器,总共 64 图形处理器 按帧。每个 HGX H100 之间都夹有 1U 接头,为服务器提供必要的液体冷却。在每个机架的底部,我们发现另一个 Supermicro 4U 单元,这次配备了冗余泵系统和机架监控系统。 🔍


🖥️ 这些机架以 8 个为一组,可容纳 512 图形处理器 通过矩阵。每台服务器配备四个 电源 多余的。在货架后面 图形处理器其中有三相电源、以太网交换机、以及提供所有液体冷却的机架大小的歧管。 💧
Colossus 集群中有超过 1,500 个机架。 图形处理器,分布在约200组框架中。首席执行官黄仁勋表示, 英偉達,这 200 个芯片上的 GPU 在短短三周内就全部安装完毕。 🚀
由于 AI 超级集群不断训练模型需要巨大的带宽,xAI 在互联互通方面更进一步 网格。每个显卡都有一个专用的 400GbE NIC(网络接口控制器),每个服务器还有一个额外的 400Gb NIC。 🔗 这意味着每个 HGX H100 服务器都有每秒 3.6 太比特的以太网。令人印象深刻,不是吗?是的,整个集群在以太网上运行,而不是超级计算领域的标准 InfiniBand 或其他奇特连接。 🌐


当然,像 Grok 3 聊天机器人这样训练 AI 模型的超级计算机需要的不仅仅是 图形处理器 以达到最佳功能。 🔥 虽然关于 Colossus 中的存储和 CPU 服务器的详细信息有些有限,但得益于 Patrick 的视频和 部落格文章,我們知道這些伺服器通常採用 Supermicro 機箱。 🚀
内部采用x86平台CPU的1U NVMe-forward服务器,提供存储和容量。 计算,并在后部配备了液体冷却。 💧 另外,外面还可以看到银行 电池 非常紧凑的 Tesla Megapack。 ⚡️
该阵列的启停功能以及组之间的毫秒延迟对于传统电网或马斯克的柴油发电机来说太过分了。因此,多个 Tesla Megapack(每个容量为 3.9 MWh)被用作 网格 电力和超级计算机。 🖥️🔋 这可确保最佳和高效的运行,避免中断。 🚦✨
🌟 Colossus 和 Musk 穩定超級電腦的使用🌟
据英伟达称,xAI Colossus 超级计算机是目前世界上最大的人工智能超级计算机。 🤯 虽然许多世界领先的超级计算机被承包商或学者用于研究天气模式、疾病或其他复杂任务,但 Colossus 全权负责训练 X(以前称为 Twitter)的各种人工智能模型。主要是 Grok 3,Elon 的“反唤醒”聊天机器人,仅适用于 X Premium 订阅者。 🤖
此外,ServeTheHome 获悉,Colossus 正在训练 人工智能模型 “未来的”;这些模型的用途和能力据称超出了人工智能的现有能力。 🚀 Colossus 建设的第一阶段已经完成,集群已全面投入运营,但一切尚未结束。孟菲斯超级计算机即将 将更新 将 GPU 容量翻倍,增加 50,000 个 H100 GPU 和 50,000 个下一代 H200 GPU。 🔥
这 更新 它还将使其能源消耗增加一倍以上,这对于马斯克 7 月份在该地点添加的 14 台柴油发电机来说已经难以承受。 ⚡ 虽然这低于马斯克承诺的 Colossus 内 300,000 H200,但这可能是第三阶段的一部分 更新。 🔋
另一方面,特斯拉“Giga Texas”工厂的 5 万个 GPU Cortex 超级计算机也属于马斯克公司。 Cortex 致力于训练 技术 特斯拉通过摄像头流和图像检测实现的自主人工智能技术,以及特斯拉的自主机器人和其他人工智能项目。 🤖🚗
此外,特斯拉很快就會在紐約州布法羅建造 Dojo 超級計算機,這是一個耗資 5 億美元的項目。 💸 同時,百度執行長李彥宏等產業投機者預測,當泡沫破裂時,99%的人工智慧公司可能會倒閉。馬斯克在人工智慧方面創紀錄的支出是否會適得其反或得到回報還有待觀察。 ⏳