🌟 I segreti del colosso xAI: scopri il cluster AI da 100.000 GPU di Elon Musk 🚀
Se sei appassionato di intelligenza artificiale e tecnologia all'avanguardia, non puoi fare a meno di scoprire cosa sta facendo Elon Musk con il suo cluster AI. Questo gigante della tecnologia, noto come xAI Colossus, sta creando molto scalpore nel mondo della tecnologia. Con un'incredibile potenza di elaborazione di 100.000 GPU, questo cluster è una vera meraviglia dell'ingegneria moderna. 🤖💻
In questo articolo sveleremo i segreti dietro questa straordinaria innovazione tecnologica. Esploreremo come xAI Colossus sta rivoluzionando il campo dell'intelligenza artificiale e cosa questo significa per il futuro. 🌟 Preparati per un affascinante viaggio nel cuore di una delle più grandi imprese tecnologiche del nostro tempo. 🚀 Da non perdere!
Il nuovo costoso progetto di Elon Musk, il supercomputer xAI Colossus AI, è stato dettagliato per la prima volta. Lo YouTuber ServeTheHome ha avuto accesso ai server Supermicro all'interno della bestia da 100.000 GPU, mostrando vari aspetti di questo supercomputer. Il superammasso xAI Colossus di Musk è online da quasi due mesi, dopo un assemblaggio durato 122 giorni. 🔧💡
Cosa c'è dentro un cluster da 100.000 GPU? 🤔
Patrick di ServeTheHome ci accompagna in un tour con la sua fotocamera attraverso diverse parti del server, offrendo una vista panoramica delle sue operazioni. Sebbene alcuni dettagli più specifici del supercomputer, come il consumo energetico e la dimensione delle bombe, non possano essere rivelati a causa di un accordo di riservatezza, xAI si è occupata di offuscare e censurare parti del video prima della sua pubblicazione. 🎥
Nonostante ciò, le cose più importanti, come i server GPU di Supermicro, sono rimaste in gran parte intatte nel filmato. Questi server GPU sono Nvidia HGX H100, una potente soluzione server con otto GPU H100 ciascuno. 🚀 La piattaforma HGX H100 è integrata nel sistema di raffreddamento a liquido GPU universale 4U di Supermicro, che fornisce un raffreddamento a liquido facilmente sostituibile a caldo per ciascuna GPU. ❄️
Questi server sono organizzati in rack contenenti otto server ciascuno, per un totale di 64 GPU per rack. I collettori 1U sono inseriti tra ciascun HGX H100, fornendo il necessario raffreddamento a liquido per i server. Nella parte inferiore di ciascun rack troviamo un'altra unità Supermicro 4U, questa volta dotata di un sistema di pompe ridondanti e di un sistema di monitoraggio del rack. 🔍
🖥️ Questi rack sono organizzati in gruppi di otto, consentendo 512 GPU per die. Ogni server è dotato di quattro alimentatori ridondanti. Sul retro dei rack GPU sono presenti alimentatori trifase, switch Ethernet e un collettore delle dimensioni di un rack che fornisce tutto il raffreddamento a liquido. 💧
Nel cluster Colossus sono presenti più di 1.500 rack GPU, distribuiti su quasi 200 set di rack. Secondo il CEO di Nvidia Jensen Huang, le GPU di questi 200 die sono state installate completamente in sole tre settimane. 🚀
Poiché un supercluster di intelligenza artificiale che addestra costantemente i modelli richiede un’elevata larghezza di banda, xAI è andato oltre nella sua interconnettività di rete. Ogni scheda grafica dispone di una NIC da 400 GbE dedicata (controller dell'interfaccia di rete), con una NIC aggiuntiva da 400 Gb per server. 🔗 Ciò significa che ogni server HGX H100 ha 3,6 Terabit al secondo di Ethernet. Impressionante, vero? E sì, l’intero cluster funziona su Ethernet, piuttosto che su InfiniBand o altre connessioni esotiche che sono standard nello spazio del supercalcolo. 🌐
Naturalmente, un supercomputer come il chatbot Grok 3, che addestra modelli di intelligenza artificiale, ha bisogno di qualcosa di più della semplice GPU per funzionare al meglio. 🔥 Sebbene i dettagli sullo storage e sui server CPU su Colossus siano alquanto limitati, grazie al video di Patrick e al articolo del blog, sappiamo che questi server sono solitamente in chassis Supermicro. 🚀
All'interno vengono utilizzati server 1U NVMe-forward con CPU della piattaforma x86, che forniscono sia capacità di archiviazione che di elaborazione e sono dotati di raffreddamento a liquido nella parte posteriore. 💧 Inoltre, all'esterno si possono vedere banchi di batterie Tesla Megapack molto compatti. ⚡️
La funzione start-stop dell'array, con la sua latenza di millisecondi tra i banchi, era troppo per la rete elettrica convenzionale o per i generatori diesel di Musk. Per questo motivo diversi Tesla Megapack (ciascuno con una capacità di 3,9 MWh) vengono utilizzati come fonte di energia intermedia tra la rete elettrica e il supercomputer. 🖥️🔋 Ciò garantisce un funzionamento ottimale ed efficiente, evitando interruzioni. 🚦✨
🌟 L'utilizzo del supercomputer stabile di Colossus e Musk 🌟
Il supercomputer xAI Colossus è attualmente, secondo Nvidia, il più grande supercomputer AI al mondo. 🤯 Mentre molti dei supercomputer più importanti del mondo vengono utilizzati nella ricerca da appaltatori o accademici per studiare modelli meteorologici, malattie o altri compiti complessi, Colossus ha la responsabilità esclusiva dell'addestramento dei vari modelli di intelligenza artificiale di X (ex Twitter). Principalmente Grok 3, il chatbot “anti-woke” di Elon disponibile solo per gli abbonati X Premium. 🤖
Inoltre, ServeTheHome è stata informata che Colossus sta addestrando modelli di intelligenza artificiale “del futuro”; modelli i cui usi e capacità vanno presumibilmente oltre le attuali capacità dell’intelligenza artificiale. 🚀 La prima fase di costruzione del Colosso è completata e il cluster è pienamente operativo, ma non è ancora tutto finito. Il supercomputer di Memphis verrà presto aggiornato per raddoppiare la sua capacità GPU, con altre 50.000 GPU H100 e 50.000 GPU H200 di prossima generazione. 🔥
Questo aggiornamento raddoppierà anche il consumo energetico, che è già troppo per essere gestito dai 14 generatori diesel che Musk ha aggiunto al sito a luglio. ⚡ Sebbene sia inferiore alla promessa di Musk di 300.000 H200 all'interno di Colossus, ciò potrebbe far parte della fase 3 degli aggiornamenti. 🔋
D’altro canto, anche il supercomputer Cortex da 50.000 GPU dello stabilimento Tesla “Giga Texas” appartiene alla società Musk. Cortex si dedica alla formazione della tecnologia AI autonoma di Tesla attraverso lo streaming di telecamere e il rilevamento di immagini, nonché ai robot autonomi di Tesla e ad altri progetti di intelligenza artificiale. 🤖🚗
Inoltre, Tesla vedrà presto la costruzione del supercomputer Dojo a Buffalo, New York, un progetto da 500 milioni di dollari in arrivo. 💸 Nel frattempo, speculatori del settore come Robin Li, CEO di Baidu, prevedono che il 99% delle aziende di intelligenza artificiale potrebbero crollare quando la bolla scoppierà. Resta da vedere se la spesa record di Musk per l’intelligenza artificiale si ritorcerà contro o darà i suoi frutti. ⏳