xAI Colossus の秘密: 100,000 GPU

🌟 xAI Colossus の秘密: イーロン・マスクの 100,000 GPU AI クラスターを発見する 🚀

🌟 xAI Colossus の秘密: イーロン・マスクの 100,000 GPU AI クラスターを発見する 🚀

人工知能と最先端のテクノロジーに情熱を持っているなら、イーロン・マスク氏が AI クラスターを使って何をしているのかを調べずにはいられません。 xAI Colossus として知られるこのテクノロジー巨人は、テクノロジー業界で大きな波紋を巻き起こしています。 100,000 GPU という驚異的な処理能力を備えたこのクラスターは、現代エンジニアリングの真の驚異です。 🤖💻

この記事では、この驚くべきイノベーションの背後にある秘密を解き明かしていきます。 技術的な。 xAI Colossus がどのように分野に革命をもたらしているかを探っていきます。 人工知能 そしてこれが将来に何を意味するのか。 🌟 偉大な偉業の中心へ向かう魅力的な旅の準備をしましょう 技術的な 私たちの時代の。 🚀 お見逃しなく!

イーロン・マスク氏の高額な新プロジェクト、xAI Colossus AI スーパーコンピューターの詳細が初めて明らかになった。 Youtuber ServeTheHome は 100,000 のビースト内の Supermicro サーバーにアクセスできました GPU、このスーパーコンピューターのさまざまな側面を示しています。マスク氏の xAI Colossus スーパークラスターは、122 日かかった組み立て後、ほぼ 2 か月間稼働し続けています。 🔧💡

世界最大の AI スーパークラスター、xAI Colossus の内部 - YouTube

100,000 GPU クラスターの内部には何が入っているのでしょうか? 🤔

ServeTheHome の Patrick が、カメラを持ってサーバーのさまざまな部分を巡るツアーに私たちを連れて行き、サーバーの動作のパノラマ ビューを提供します。多少ですが 詳細 スーパーコンピューターの消費電力や爆弾のサイズなど、より具体的な情報は機密保持契約により明らかにできなかったが、xAI は公開前にビデオの一部のぼかしや検閲を行った。 🎥

それにもかかわらず、Supermicro の GPU サーバーなどの最も重要なものは、ほとんどそのままの状態で映像に残っています。これらの GPU サーバーは、 エヌビディア HGX H100 は、それぞれ 8 つの H100 GPU を備えた強力なサーバー ソリューションです。 🚀 HGX H100 プラットフォームは 4U Universal GPU Liquid システム内に統合されています 冷却された Supermicro の製品で、各 GPU に簡単にホットスワップ可能な液体冷却を提供します。 ❄️

これらのサーバーは、それぞれ 8 台のサーバーを含むラックに編成されており、ラックあたり合計 64 個の GPU になります。各 HGX H100 の間に 1U コレクタが挟まれており、サーバーに必要な液体冷却を提供します。各ラックの底部には、別の 4U Supermicro ユニットがあり、今回は冗長ポンプ システムとラック監視システムが装備されています。 🔍

xAI HGX H100 サーバー ラックの 4 バンク、それぞれ 8 台のサーバーを収容できます。 (画像クレジット: ServeTheHome) xAI Colossus GPU サーバーの背面アクセス。各サーバーから 9 本のイーサネット ケーブルが出ており、それぞれに 4 つの電源装置があります。供給ホースと液体冷却ホースも見えます。(画像クレジット: ServeTheHome)

🖥️ Estos bastidores están organizados en grupos de ocho, lo que permite tener 512 GPU por matriz. Cada servidor está equipado con cuatro fuentes de alimentación redundantes. En la parte posterior de los bastidores de GPU, se encuentran fuentes de alimentación trifásicas, conmutadores Ethernet y un colector del tamaño de un bastidor que proporciona toda la refrigeración líquida. 💧

Colossus クラスターには 1,500 を超える GPU ラックがあり、約 200 のラック セットに分散されています。 CEOのジェンセン・ファン氏によると、 エヌビディア、これら 200 個のダイ上の GPU は、わずか 3 週間で完全に取り付けられました。 🚀

モデルを継続的にトレーニングする AI スーパークラスターには高帯域幅が必要であるため、xAI はネットワークの相互接続性をさらに強化しました。それぞれ グラフィックカード 専用の 400 GbE NIC (ネットワーク インターフェイス コントローラー) があり、サーバーごとに追加の 400 Gb NIC があります。 🔗 これは、各 HGX H100 サーバーが 1 秒あたり 3.6 テラビットのイーサネットを備えていることを意味します。印象的ですよね?そしてはい、クラスター全体は、スーパーコンピューティング分野で標準的な InfiniBand やその他の特殊な接続ではなく、イーサネット上で実行されます。 🌐

xAI Colossus クラスターをクラスター自体に接続する黄色のイーサネット ケーブルの波を見下ろしたショット。非常に幅の広いケーブルが何層にも天井に埋め込まれています。(画像クレジット: ServeTheHome)Supermicro のストレージ サーバーとまったく同じに見える xAI の Colossus CPU コンピューティング サーバーも、サイトで広く使用されています。(画像クレジット: ServeTheHome)

もちろん、AI モデルをトレーニングする Grok 3 チャットボットのようなスーパーコンピューターが最高のパフォーマンスを発揮するには、GPU だけではありません。 🔥 Colossus のストレージと CPU サーバーの詳細はある程度限られていますが、Patrick のビデオと ブログ投稿、これらのサーバーは通常、Supermicro シャーシ内にあることがわかっています。 🚀

x86 プラットフォーム CPU を搭載した 1U NVMe フォワード サーバーが内部で使用され、ストレージと容量の両方を提供します。 コンピューティング、後部に水冷が装備されています。 💧 さらに、外には銀行が見えます 電池 非常にコンパクトなテスラメガパック。 ⚡️

このアレイのスタートストップ機能は、バンク間のミリ秒単位の遅延を伴うため、従来の電力網やマスク氏のディーゼル発電機には多すぎた。このため、複数のテスラ メガパック (それぞれの容量は 3.9 MWh) が、テスラ メガパック間の中間エネルギー源として使用されています。 グリッド 電気とスーパーコンピューター。 🖥️🔋 これにより、最適かつ効率的な運用が保証され、中断が回避されます。 🚦✨

🌟 Colossus と Musk の安定したスーパーコンピューターの使用 🌟

Nvidia によると、xAI Colossus スーパーコンピューターは現在、世界最大の AI スーパーコンピューターです。 🤯 世界有数のスーパーコンピューターの多くは、気象パターン、病気、その他の複雑なタスクを研究するために請負業者や学者による研究に使用されていますが、Colossus は X (旧 Twitter) のさまざまな AI モデルのトレーニングに単独で責任を負っています。主に、X Premium 加入者のみが利用できる Elon の「アンチウェイク」チャットボットである Grok 3 です。 🤖

さらに、ServeTheHome は、Colossus が「未来の」 AI モデルをトレーニングしていることを知らされました。現在の AI の能力を超えていると思われるモデル。 🚀 Colossus 建設の第 1 段階は完了し、クラスターは完全に稼働していますが、まだすべてが完了したわけではありません。メンフィスのスーパーコンピューターはまもなく 更新します 50,000 個の H100 GPU と 50,000 個の次世代 H200 GPU が追加され、GPU 容量が 2 倍になります。 🔥

これ アップデート また、エネルギー消費量も2倍以上となり、マスク氏が7月に敷地内に追加した14台のディーゼル発電機ではすでに多すぎて対応できない。 ⚡ マスク氏が約束したコロッサス内での 300,000 H200 を下回っていますが、これはフェーズ 3 の一部となる可能性があります。 アップデート。 🔋

一方、テスラの「ギガテキサス」工場にある5万GPUのCortexスーパーコンピューターもマスク社のものだ。 Cortex は、 テクノロジー カメラストリーミングと画像検出によるテスラの自律型 AI テクノロジー、およびテスラの自律型ロボットやその他の AI プロジェクト。 🤖🚗

さらに、テスラは間もなくニューヨーク州バッファローに5億ドル規模のスーパーコンピューター「Dojo」の建設を予定している。 💸 一方、Baidu CEO の Robin Li のような業界の投機家は、バブルが崩壊すると AI 企業の 99% が崩壊する可能性があると予測しています。マスク氏のAIへの記録的な支出が裏目に出るか、それとも報われるかはまだ分からない。 ⏳

5 3 投票
記事の評価
購読する
通知する
ゲスト

0 コメント
最古の
最新 最も投票された
オンラインコメント
すべてのコメントを見る