xAI Colossus の秘密: 100,000 GPU

🌟 xAI Colossus の秘密: イーロン・マスクの 100,000 GPU AI クラスターを発見する 🚀

🌟 xAI Colossus の秘密: イーロン・マスクの 100,000 GPU AI クラスターを発見する 🚀

人工知能と最先端のテクノロジーに情熱を持っているなら、イーロン・マスク氏が AI クラスターを使って何をしているのかを調べずにはいられません。 xAI Colossus として知られるこのテクノロジー巨人は、テクノロジー業界で大きな波紋を巻き起こしています。 100,000 GPU という驚異的な処理能力を備えたこのクラスターは、現代エンジニアリングの真の驚異です。 🤖💻

この記事では、この驚くべき技術革新の秘密を解き明かしていきます。 xAI Colossus が人工知能の分野にどのような革命をもたらしているのか、そしてこれが将来に何を意味するのかを探っていきます。 🌟 私たちの時代の最も偉大な技術的偉業の中心への魅力的な旅の準備をしましょう。 🚀 お見逃しなく!

イーロン・マスク氏の高額な新プロジェクト、xAI Colossus AI スーパーコンピューターの詳細が初めて明らかになった。 YouTuber の ServeTheHome は、100,000 GPU の猛獣内部の Supermicro サーバーにアクセスし、このスーパーコンピューターのさまざまな側面を見せました。マスク氏の xAI Colossus スーパークラスターは、122 日かかった組み立て後、ほぼ 2 か月間稼働し続けています。 🔧💡

世界最大の AI スーパークラスター、xAI Colossus の内部 - YouTube

100,000 GPU クラスターの内部には何が入っているのでしょうか? 🤔

ServeTheHome の Patrick がカメラを持ってサーバーのさまざまな部分を案内し、サーバーの動作の全景を見せてくれます。消費電力や爆弾のサイズなど、スーパーコンピューターのより具体的な詳細は機密保持契約により明らかにできなかったが、xAIは公開前にビデオの一部のぼかしや検閲を行った。 🎥

それにもかかわらず、Supermicro の GPU サーバーなどの最も重要なものは、ほとんどそのままの状態で映像に残っています。これらの GPU サーバーは、それぞれ 8 つの H100 GPU を備えた強力なサーバー ソリューションである Nvidia HGX H100 です。 🚀 HGX H100 プラットフォームは、Supermicro の 4U ユニバーサル GPU 液冷システムに統合されており、各 GPU に簡単にホットスワップ可能な液冷を提供します。 ❄️

これらのサーバーは、それぞれ 8 台のサーバーを含むラックに編成されており、ラックあたり合計 64 個の GPU になります。各 HGX H100 の間に 1U コレクタが挟まれており、サーバーに必要な液体冷却を提供します。各ラックの底部には、別の 4U Supermicro ユニットがあり、今回は冗長ポンプ システムとラック監視システムが装備されています。 🔍

xAI HGX H100 サーバー ラックの 4 バンク、それぞれ 8 台のサーバーを収容できます。 (画像クレジット: ServeTheHome) xAI Colossus GPU サーバーの背面アクセス。各サーバーから 9 本のイーサネット ケーブルが出ており、それぞれに 4 つの電源装置があります。供給ホースと液体冷却ホースも見えます。(画像クレジット: ServeTheHome)

🖥️ これらのラックは 8 つのグループに編成されており、ダイごとに 512 個の GPU を搭載できます。各サーバーには 4 つの冗長電源が装備されています。 GPU ラックの背面には、三相電源、イーサネット スイッチ、およびすべての液体冷却を提供するラックサイズのマニホールドがあります。 💧

Colossus クラスターには 1,500 を超える GPU ラックがあり、約 200 のラック セットに分散されています。 Nvidia CEO の Jensen Huang 氏によると、これら 200 個のダイの GPU はわずか 3 週間で完全に取り付けられました。 🚀

モデルを継続的にトレーニングする AI スーパークラスターには高帯域幅が必要であるため、xAI はネットワークの相互接続性をさらに強化しました。各グラフィックス カードには専用の 400GbE NIC (ネットワーク インターフェイス コントローラー) が搭載されており、サーバーごとに追加の 400Gb NIC が搭載されています。 🔗 これは、各 HGX H100 サーバーが 1 秒あたり 3.6 テラビットのイーサネットを備えていることを意味します。印象的ですよね?そしてはい、クラスター全体は、スーパーコンピューティング分野で標準的な InfiniBand やその他の特殊な接続ではなく、イーサネット上で実行されます。 🌐

xAI Colossus クラスターをクラスター自体に接続する黄色のイーサネット ケーブルの波を見下ろしたショット。非常に幅の広いケーブルが何層にも天井に埋め込まれています。(画像クレジット: ServeTheHome)Supermicro のストレージ サーバーとまったく同じに見える xAI の Colossus CPU コンピューティング サーバーも、サイトで広く使用されています。(画像クレジット: ServeTheHome)

もちろん、AI モデルをトレーニングする Grok 3 チャットボットのようなスーパーコンピューターが最高のパフォーマンスを発揮するには、GPU だけではありません。 🔥 Colossus のストレージと CPU サーバーの詳細はある程度限られていますが、Patrick のビデオと ブログ投稿、これらのサーバーは通常、Supermicro シャーシ内にあることがわかっています。 🚀

x86 プラットフォーム CPU を搭載した 1U NVMe フォワード サーバーが内部で使用され、ストレージとコンピューティング能力の両方を提供し、背面に水冷を備えています。 💧 さらに、屋外には非常にコンパクトな Tesla Megapack バッテリー バンクが見えます。 ⚡️

バンク間のミリ秒遅延を伴うアレイのスタート/ストップ機能は、従来の電力網やマスクのディーゼル発電機には多すぎました。このため、いくつかの Tesla Megapack (それぞれの容量は 3.9 MWh) が、電力網とスーパーコンピューターの間の中間エネルギー源として使用されています。 🖥️🔋 これにより、最適かつ効率的な運用が保証され、中断が回避されます。 🚦✨

🌟 Colossus と Musk の安定したスーパーコンピューターの使用 🌟

Nvidia によると、xAI Colossus スーパーコンピューターは現在、世界最大の AI スーパーコンピューターです。 🤯 世界有数のスーパーコンピューターの多くは、気象パターン、病気、その他の複雑なタスクを研究するために請負業者や学者による研究に使用されていますが、Colossus は X (旧 Twitter) のさまざまな AI モデルのトレーニングに単独で責任を負っています。主に、X P​​remium 加入者のみが利用できる Elon の「アンチウェイク」チャットボットである Grok 3 です。 🤖

さらに、ServeTheHome は、Colossus が「未来の」 AI モデルをトレーニングしていることを知らされました。現在の AI の能力を超えていると思われるモデル。 🚀 Colossus 建設の第 1 段階は完了し、クラスターは完全に稼働していますが、まだすべてが完了したわけではありません。メンフィス スーパーコンピューターは間もなくアップグレードされ、GPU 容量が 2 倍になり、さらに 50,000 個の H100 GPU と 50,000 個の次世代 H200 GPU が追加されます。 🔥

このアップグレードにより消費電力も 2 倍以上になりますが、マスク氏が 7 月に敷地内に追加した 14 台のディーゼル発電機ではすでに多すぎます。 ⚡ Colossus 内に 300,000 台の H200 を配備するというマスク氏の約束を下回っていますが、これはアップデートのフェーズ 3 の一部となる可能性があります。 🔋

一方、テスラの「ギガ・テキサス」工場にある5万GPUのCortexスーパーコンピューターもマスク社のものだ。 Cortex は、テスラの自律型ロボットやその他の AI プロジェクトだけでなく、カメラ ストリーミングや画像検出を通じてテスラの自律型 AI テクノロジーのトレーニングに専念しています。 🤖🚗

さらに、テスラは間もなくニューヨーク州バッファローに5億ドル規模のスーパーコンピューター「Dojo」の建設を予定している。 💸 一方、Baidu CEO の Robin Li のような業界の投機家は、バブルが崩壊すると AI 企業の 99% が崩壊する可能性があると予測しています。マスク氏のAIへの記録的な支出が裏目に出るか、それとも報われるかはまだ分からない。 ⏳

5 1 投票する
記事の評価
購読する
通知する
ゲスト

0 コメント
最古の
最新 最も投票された
オンラインコメント
すべてのコメントを見る