🌟 xAI Colossus 的秘密:探索 Elon Musk 的 100,000 個 GPU AI 集群 🚀
如果你對人工智慧和尖端技術充滿熱情,你會情不自禁地了解 Elon Musk)正在用他的人工智慧集群做什麼。這個被稱為 xAI Colossus 的科技巨頭正在科技界引起不小的轟動。該集群擁有 10 萬個 GPU 的驚人處理能力,堪稱現代工程的真正奇蹟。 🤖💻
在本文中,我们将揭开这一惊人创新背后的秘密 技术性的。我们将探讨 xAI Colossus 如何彻底改变该领域 人工智能 以及这对未来意味着什么。 🌟 准备好踏上一段迷人的旅程,前往最伟大的壮举之一的核心 技术性的 我们这个时代的。 🚀 不要错过!
埃隆·马斯克 (Elon Musk) 耗资巨大的新项目 xAI Colossus AI 超级计算机首次详细介绍。 Youtuber ServeTheHome 可以访问 100,000 头野兽中的 Supermicro 服务器 图形处理器,展示了这台超级计算机的各个方面。马斯克的 xAI Colossus 超级集群经过 122 天的组装,已经上线近两个月了。 🔧💡
100,000 個 GPU 叢集內部有什麼? 🤔
ServeTheHome 的 Patrick 用他的相机带我们参观了服务器的不同部分,提供了服务器操作的全景视图。虽然有些 细节 由于保密协议,超级计算机的更具体信息(例如其功耗和炸弹的大小)无法透露,xAI 在发布之前对视频的部分内容进行了模糊处理和审查。 🎥
尽管如此,最重要的东西,比如 Supermicro 的 GPU 服务器,在镜头中基本保持完好。这些 GPU 服务器是 英伟达 HGX H100,一个强大的服务器解决方案,每个都有八个 H100 GPU。 🚀 HGX H100 平台集成在 4U 通用 GPU Liquid 系统中 冷却 来自 Supermicro,为每个 GPU 提供易于热插拔的液体冷却。 ❄️
這些伺服器被組織成機架,每個機架包含 8 個伺服器,每個機架總共有 64 個 GPU。 1U 集熱器夾在每個 HGX H100 之間,為伺服器提供必要的液體冷卻。在每個機架的底部,我們發現另一個 4U Supermicro 單元,這次配備了冗餘幫浦系統和機架監控系統。 🔍
🖥️ 這些機架以 8 個一組排列,每個晶片可容納 512 個 GPU。每台伺服器均配備四個冗餘電源。 GPU 機架的背面是三相電源、乙太網路交換器和提供所有液體冷卻的機架大小的歧管。 💧
Colossus集群中有超过1,500个GPU机架,分布在近200个机架组中。据首席执行官黄仁勋介绍 英偉達,这 200 个芯片上的 GPU 在短短三周内就全部安装完毕。 🚀
由于不断训练模型的AI超级集群需要高带宽,xAI在网络互联方面走得更远。每个 显卡 它有一个专用的 400 GbE NIC(网络接口控制器),每台服务器还有一个额外的 400 Gb NIC。 🔗 这意味着每台 HGX H100 服务器拥有每秒 3.6 太比特的以太网。令人印象深刻,对吧?是的,整个集群运行在以太网上,而不是超级计算领域标准的 InfiniBand 或其他奇异连接。 🌐
當然,像 Grok 3 聊天機器人這樣用於訓練 AI 模型的超級電腦需要的不僅僅是 GPU 才能發揮最佳效能。 🔥 雖然 Colossus 上的儲存和 CPU 伺服器的詳細資訊有些有限,但感謝 Patrick 的影片和 部落格文章,我們知道這些伺服器通常採用 Supermicro 機箱。 🚀
内部采用x86平台CPU的1U NVMe-forward服务器,提供存储和容量。 计算,并在后部配备了液体冷却。 💧 另外,外面还可以看到银行 电池 非常紧凑的 Tesla Megapack。 ⚡️
该阵列的启停功能以及组之间的毫秒延迟对于传统电网或马斯克的柴油发电机来说太过分了。因此,多个 Tesla Megapack(每个容量为 3.9 MWh)被用作 网格 电力和超级计算机。 🖥️🔋 这可确保最佳和高效的运行,避免中断。 🚦✨
🌟 Colossus 和 Musk 穩定超級電腦的使用🌟
据英伟达称,xAI Colossus 超级计算机是目前世界上最大的人工智能超级计算机。 🤯 虽然许多世界领先的超级计算机被承包商或学者用于研究天气模式、疾病或其他复杂任务,但 Colossus 全权负责训练 X(以前称为 Twitter)的各种人工智能模型。主要是 Grok 3,Elon 的“反唤醒”聊天机器人,仅适用于 X Premium 订阅者。 🤖
此外,ServeTheHome 获悉 Colossus 正在训练“未来”的人工智能模型;其用途和能力据称超出了人工智能当前的能力。 🚀 Colossus 第一阶段建设已经完成,集群已全面投入运行,但尚未全部完成。孟菲斯超级计算机即将投入使用 将更新 将 GPU 容量翻倍,增加 50,000 个 H100 GPU 和 50,000 个下一代 H200 GPU。 🔥
这 更新 它还将使其能源消耗增加一倍以上,这对于马斯克 7 月份在该地点添加的 14 台柴油发电机来说已经难以承受。 ⚡ 虽然这低于马斯克承诺的 Colossus 内 300,000 H200,但这可能是第三阶段的一部分 更新。 🔋
另一方面,特斯拉“Giga Texas”工厂的 5 万个 GPU Cortex 超级计算机也属于马斯克公司。 Cortex 致力于训练 技术 特斯拉通过摄像头流和图像检测实现的自主人工智能技术,以及特斯拉的自主机器人和其他人工智能项目。 🤖🚗
此外,特斯拉很快就會在紐約州布法羅建造 Dojo 超級計算機,這是一個耗資 5 億美元的項目。 💸 同時,百度執行長李彥宏等產業投機者預測,當泡沫破裂時,99%的人工智慧公司可能會倒閉。馬斯克在人工智慧方面創紀錄的支出是否會適得其反或得到回報還有待觀察。 ⏳