🌟 I segreti del colosso xAI: scopri il cluster AI da 100.000 GPU di Elon Musk 🚀
Se sei appassionato di intelligenza artificiale e tecnologia all'avanguardia, non puoi fare a meno di scoprire cosa sta facendo Elon Musk con il suo cluster AI. Questo gigante della tecnologia, noto come xAI Colossus, sta creando molto scalpore nel mondo della tecnologia. Con un'incredibile potenza di elaborazione di 100.000 GPU, questo cluster è una vera meraviglia dell'ingegneria moderna. 🤖💻
In questo articolo sveleremo i segreti dietro questa straordinaria innovazione tecnologico. Esploreremo come xAI Colossus sta rivoluzionando il campo dell' intelligenza artificiale e cosa questo significa per il futuro. 🌟 Preparatevi per un affascinante viaggio nel cuore di una delle più grandi imprese tecnologico del nostro tempo. 🚀 Da non perdere!
Il nuovo costoso progetto di Elon Musk, il supercomputer xAI Colossus AI, è stato dettagliato per la prima volta. Lo Youtuber ServeTheHome ha avuto accesso ai server Supermicro all'interno della bestia 100.000 GPU, mostrando vari aspetti di questo supercomputer. Il superammasso xAI Colossus di Musk è online da quasi due mesi, dopo un assemblaggio durato 122 giorni. 🔧💡
Cosa c'è dentro un cluster da 100.000 GPU? 🤔
Patrick di ServeTheHome ci accompagna in un tour con la sua fotocamera attraverso diverse parti del server, offrendo una vista panoramica delle sue operazioni. Anche se alcuni dettagli Dettagli più specifici sul supercomputer, come il suo consumo energetico e la dimensione delle bombe, non possono essere rivelati a causa di un accordo di riservatezza, xAI si è occupata di offuscare e censurare parti del video prima della sua pubblicazione. 🎥
Nonostante questo, la cosa più importante, come i server GPU di Supermicro, è rimasto praticamente intatto per tutta la durata delle riprese. Questi server GPU sono Nvidia HGX H100, una potente soluzione server dotata di otto GPU H100 ciascuna. 🚀 La piattaforma HGX H100 è integrata nel sistema 4U Universal GPU Liquid Raffreddato da Supermicro, fornendo un raffreddamento a liquido facilmente sostituibile a caldo per ciascuna GPU. ❄️
Questi server sono organizzati in rack contenenti otto server ciascuno, per un totale di 64 GPU per fotogramma. I connettori 1U sono inseriti tra ogni HGX H100, garantendo il raffreddamento a liquido necessario per i server. Nella parte inferiore di ogni rack troviamo un'altra unità Supermicro 4U, questa volta dotata di un sistema di pompaggio ridondante e di un sistema di monitoraggio del rack. 🔍


🖥️ Questi rack sono organizzati in gruppi di otto, consentendo 512 GPU per matrice. Ogni server è dotato di quattro alimentatori ridondante. Sul retro degli scaffali di GPU, sono presenti alimentatori trifase, switch Ethernet e un collettore delle dimensioni di un rack che fornisce tutto il raffreddamento a liquido. 💧
En el clúster Colossus hay más de 1500 bastidores de GPU, distribuidos en cerca de 200 conjuntos de bastidores. Según Jensen Huang, director ejecutivo de Nvidia, le GPU su questi 200 die sono state installate completamente in sole tre settimane. 🚀
Poiché un supercluster di intelligenza artificiale che addestra costantemente i modelli richiede un'enorme larghezza di banda, xAI è andato oltre nella sua interconnettività di griglia. Ogni scheda grafica Dispone di una NIC dedicata da 400 GbE (controller dell'interfaccia di rete), con una NIC aggiuntiva da 400 Gb per server. 🔗 Ciò significa che ogni server HGX H100 ha 3,6 Terabit al secondo di Ethernet. Impressionante, vero? E sì, l’intero cluster funziona su Ethernet, piuttosto che su InfiniBand o altre connessioni esotiche che sono standard nello spazio del supercalcolo. 🌐


Naturalmente, un supercomputer come il chatbot Grok 3, che addestra modelli di intelligenza artificiale, ha bisogno di qualcosa di più della semplice GPU per funzionare al meglio. 🔥 Sebbene i dettagli sullo storage e sui server CPU su Colossus siano alquanto limitati, grazie al video di Patrick e al articolo del blog, sappiamo che questi server sono solitamente in chassis Supermicro. 🚀
All'interno vengono utilizzati server 1U NVMe-forward con CPU della piattaforma x86, che forniscono sia spazio di archiviazione che capacità. informatica, e sono dotati di raffreddamento a liquido nella parte posteriore. 💧 Inoltre, all'esterno si possono vedere sponde di batterie Tesla Megapack molto compatto. ⚡️
La funzione start-stop dell'array, con la sua latenza di millisecondi tra i banchi, era troppo per la rete elettrica convenzionale o per i generatori diesel di Musk. Per questo motivo vengono utilizzati diversi Tesla Megapack (ciascuno con una capacità di 3,9 MWh) come fonte di energia intermedia tra il griglia elettricità e supercomputer. 🖥️🔋 Ciò garantisce un funzionamento ottimale ed efficiente, evitando interruzioni. 🚦✨
🌟 L'utilizzo del supercomputer stabile di Colossus e Musk 🌟
Il supercomputer xAI Colossus è attualmente, secondo Nvidia, il più grande supercomputer AI al mondo. 🤯 Mentre molti dei supercomputer più importanti del mondo vengono utilizzati nella ricerca da appaltatori o accademici per studiare modelli meteorologici, malattie o altri compiti complessi, Colossus ha la responsabilità esclusiva dell'addestramento dei vari modelli di intelligenza artificiale di X (ex Twitter). Principalmente Grok 3, il chatbot "anti-woke" di Elon disponibile solo per gli abbonati X Premium. 🤖
Además, se informó a ServeTheHome que Colossus está entrenando Modelli di intelligenza artificiale «del futuro»; modelos cuyos usos y capacidades supuestamente están más allá de las capacidades actuales de la IA. 🚀 La primera fase de construcción de Colossus está completa y el clúster está completamente operativo, pero aún no está todo terminado. La supercomputadora de Memphis pronto se aggiornerà raddoppiare la propria capacità GPU, con ulteriori 50.000 GPU H100 e 50.000 GPU H200 di nuova generazione. 🔥
Questo aggiornamento Inoltre, raddoppierà il suo consumo energetico, che è già troppo per essere gestito dai 14 generatori diesel che Musk ha aggiunto al sito a luglio. ⚡ Sebbene sia inferiore alla promessa di Musk di 300.000 H200 all'interno di Colossus, ciò potrebbe far parte della fase 3 di aggiornamenti. 🔋
D'altro canto, anche il supercomputer Cortex da 50.000 GPU dello stabilimento Tesla "Giga Texas" appartiene alla società Musk. Cortex si dedica alla formazione del tecnologia La tecnologia AI autonoma di Tesla attraverso lo streaming di telecamere e il rilevamento di immagini, nonché i robot autonomi di Tesla e altri progetti di intelligenza artificiale. 🤖🚗
Inoltre, Tesla vedrà presto la costruzione del supercomputer Dojo a Buffalo, New York, un progetto da 500 milioni di dollari in arrivo. 💸 Nel frattempo, speculatori del settore come Robin Li, CEO di Baidu, prevedono che il 99% delle aziende di intelligenza artificiale potrebbero crollare quando la bolla scoppierà. Resta da vedere se la spesa record di Musk per l’intelligenza artificiale si ritorcerà contro o darà i suoi frutti. ⏳