đ Hemligheterna bakom xAI Colossus: UpptĂ€ck Elon Musks AI-kluster med 100 000 GPU:er đ
Om du brinner för artificiell intelligens och banbrytande teknologi kan du inte missa vad Elon Musk gör med sitt AI-kluster. Denna teknikjĂ€tte, kĂ€nd som xAI Colossus, skapar stor uppstĂ„ndelse i teknikvĂ€rlden. Med en hĂ€pnadsvĂ€ckande processorkraft pĂ„ 100 000 GPU:er Ă€r detta kluster ett sant underverk av modern ingenjörskonst. đ€đ»
I den hĂ€r artikeln ska vi avslöja hemligheterna bakom denna fantastiska innovation. teknologiskVi kommer att utforska hur xAI Colossus revolutionerar omrĂ„det artificiell intelligens och vad detta innebĂ€r för framtiden. đ Gör dig redo för en fascinerande resa in i hjĂ€rtat av en av de största bedrifterna teknologisk av vĂ„r tid. đ Missa inte det!
Elon Musks dyra nya projekt, AI-superdatorn xAI Colossus, har för första gĂ„ngen presenterats i detalj. YouTubern ServeTheHome fick tillgĂ„ng till Supermicro-servrarna inuti det 100 000 ton tunga monsteret. GPU, som visar upp olika aspekter av denna superdator. Musks xAI Colossus-superkluster har varit online i nĂ€stan tvĂ„ mĂ„nader, efter en 122 dagar lĂ„ng byggprocess. đ§đĄ
Vad finns inuti ett kluster med 100 000 GPU:er? đ€
Patrick frĂ„n ServeTheHome tar oss med pĂ„ en rundtur med sin kamera genom olika delar av servern och erbjuder en panoramavy över dess drift. Ăven om vissa detaljer Mer specifika detaljer om superdatorn, sĂ„som dess strömförbrukning och bombernas storlek, kunde inte avslöjas pĂ„ grund av ett sekretessavtal, xAI tog hand om att sudda ut och censurera delar av videon innan den slĂ€pptes. đ„
Trots detta Ă€r det viktigaste, som servrarna GPU frĂ„n Supermicro, förblev praktiskt taget orörda i filmmaterialet. Dessa GPU-servrar Ă€r Nvidia HGX H100, en kraftfull serverlösning med Ă„tta H100 GPU:er vardera. đ HGX H100-plattformen Ă€r integrerad i 4U Universal GPU Liquid-systemet. Kyld frĂ„n Supermicro, som ger enkel hot-swap-vĂ€tskekylning för varje GPU. âïž
Dessa servrar Ă€r organiserade i rack som innehĂ„ller Ă„tta servrar vardera, totalt 64 GPU per rack. 1U-kollektorer Ă€r placerade mellan varje HGX H100, vilket ger nödvĂ€ndig vĂ€tskekylning för servrarna. LĂ€ngst ner i varje rack hittar vi ytterligare en 4U Supermicro-enhet, den hĂ€r gĂ„ngen utrustad med ett redundant pumpsystem och ett rackövervakningssystem. đ


đ„ïž Dessa stĂ€ll Ă€r organiserade i grupper om Ă„tta, vilket möjliggör 512 GPU per array. Varje server Ă€r utrustad med fyra strömförsörjning redundant. LĂ€ngst bak pĂ„ hyllorna av GPU, det finns trefasiga nĂ€taggregat, Ethernet-switchar och en rackstor uppsamlare som tillhandahĂ„ller all vĂ€tskekylning. đ§
Det finns fler Ă€n 1500 rack i Colossus-klustret. GPU, distribuerade i cirka 200 uppsĂ€ttningar ramar. Enligt Jensen Huang, VD för NvidiaGrafikkorten för dessa 200 arrayer installerades helt pĂ„ bara tre veckor. đ
Eftersom ett AI-superkluster som stĂ€ndigt trĂ€nar modeller krĂ€ver mycket bandbredd, gick xAI lĂ€ngre i sin sammankoppling av rutnĂ€tVarje grafikkort har ett dedikerat 400 GbE NIC (nĂ€tverksgrĂ€nssnittskontroller), med ytterligare 400 Gb NIC per server. đ Det betyder att varje HGX H100-server har 3,6 terabit per sekund Ethernet. Imponerande, eller hur? Och ja, hela klustret körs pĂ„ Ethernet, snarare Ă€n InfiniBand eller andra exotiska anslutningar som Ă€r standard i superdatorvĂ€rlden. đ


Naturligtvis behöver en superdator som Grok 3-chatboten, som trĂ€nar AI-modeller, mer Ă€n bara GPU för att fungera optimalt. đ„ Ăven om detaljerna om lagrings- och CPU-servrarna i Colossus Ă€r nĂ„got begrĂ€nsade, tack vare Patricks video och blogginlĂ€ggVi vet att dessa servrar vanligtvis Ă€r byggda i Supermicro-chassin. đ
NVMe-forward 1U-servrar med x86-plattformsprocessorer inuti anvĂ€nds, vilket ger bĂ„de lagrings- och processorkapacitet. datoranvĂ€ndning, och Ă€r utrustade med vĂ€tskekylning baktill. đ§ Dessutom kan man pĂ„ utsidan se vallar av batterier Mycket kompakta Tesla Megapack. âĄïž
Arrayens start-stopp-egenskaper, med deras millisekundsfördröjning mellan bankerna, var för mycket för det konventionella elnĂ€tet eller Musks dieselgeneratorer. SĂ„ flera Tesla Megapack (var och en med en kapacitet pĂ„ 3,9 MWh) anvĂ€nds som en mellanliggande kraftkĂ€lla mellan rutnĂ€t el och superdatorn. đ„ïžđ Detta sĂ€kerstĂ€ller optimal och effektiv drift, vilket undviker avbrott. đŠâš
đ AnvĂ€ndningen av Colossus och Musks stabila superdator đ
xAI-superdatorn Colossus Ă€r för nĂ€rvarande, enligt Nvidia, vĂ€rldens största AI-superdator. đ€Ż Medan mĂ„nga av vĂ€rldens ledande superdatorer anvĂ€nds i forskning av entreprenörer eller akademiker för att studera vĂ€dermönster, sjukdomar eller andra komplexa uppgifter, Ă€r Colossus ensamt ansvarig för att trĂ€na X:s (tidigare Twitter) olika AI-modeller. FrĂ€mst Grok 3, Elons "anti-woke" chatbot som endast Ă€r tillgĂ€nglig för X Premium-prenumeranter. đ€
Dessutom informerades ServeTheHome om att Colossus utbildar AI-modeller "framtidens"; modeller vars anvĂ€ndningsomrĂ„den och kapacitet förmodligen ligger bortom AI:s nuvarande kapacitet. đ Den första fasen av byggandet av Colossus Ă€r klar och klustret Ă€r fullt operativt, men allt Ă€r inte klart Ă€n. Superdatorn i Memphis kommer snart kommer att uppdatera för att fördubbla sin GPU-kapacitet, med 50 000 ytterligare H100 GPU:er och 50 000 nĂ€sta generations H200 GPU:er. đ„
Detta uppdatera Den kommer ocksĂ„ att mer Ă€n fördubbla sin strömförbrukning, vilket redan Ă€r för mycket för de 14 dieselgeneratorer som Musk lade till pĂ„ platsen i juli att hantera. ⥠Ăven om det inte nĂ„r Musks löfte om 300 000 H200-generatorer inuti Colossus, skulle det kunna vara en del av fas 3 av uppdateringar. đ
Ă andra sidan tillhör Ă€ven Cortex-superdatorn med 50 000 GPU:er i Teslas fabrik "Giga Texas" ett Musk-företag. Cortex Ă€r dedikerat till att utbilda teknologi Teslas autonoma AI genom kameraströmning och bildavkĂ€nning, samt Teslas autonoma robotar och andra AI-projekt. đ€đ
Dessutom kommer Tesla snart att fĂ„ se byggandet av superdatorn Dojo i Buffalo, New York, ett projekt pĂ„ 500 miljoner dollar som snart kommer. đž Samtidigt förutspĂ„r branschspekulanter som Baidus VD Robin Li att antalet AI-företag kan falla sönder nĂ€r bubblan spricker. Det Ă„terstĂ„r att se om Musks rekordutgifter för AI kommer att slĂ„ tillbaka eller löna sig. âł