π I segreti del colosso xAI: scopri il cluster AI da 100.000 GPU di Elon Musk π
Se sei appassionato di intelligenza artificiale e tecnologia all'avanguardia, non puoi fare a meno di scoprire cosa sta facendo Elon Musk con il suo cluster AI. Questo gigante della tecnologia, noto come xAI Colossus, sta creando molto scalpore nel mondo della tecnologia. Con un'incredibile potenza di elaborazione di 100.000 GPU, questo cluster Γ¨ una vera meraviglia dell'ingegneria moderna. π€π»
In questo articolo sveleremo i segreti dietro questa straordinaria innovazione tecnologico. Esploreremo come xAI Colossus sta rivoluzionando il campo dell'intelligenza artificiale e cosa questo significa per il futuro. π Preparatevi per un affascinante viaggio nel cuore di una delle piΓΉ grandi imprese tecnologico del nostro tempo. π Da non perdere!
Il nuovo costoso progetto di Elon Musk, il supercomputer xAI Colossus AI, Γ¨ stato dettagliato per la prima volta. Lo YouTuber ServeTheHome ha avuto accesso ai server Supermicro all'interno della bestia da 100.000 GPU, mostrando vari aspetti di questo supercomputer. Il superammasso xAI Colossus di Musk Γ¨ online da quasi due mesi, dopo un assemblaggio durato 122 giorni. π§π‘
Cosa c'Γ¨ dentro un cluster da 100.000 GPU? π€
Patrick di ServeTheHome ci accompagna in un tour con la sua fotocamera attraverso diverse parti del server, offrendo una vista panoramica delle sue operazioni. Anche se alcuni dettagli Dettagli piΓΉ specifici sul supercomputer, come il suo consumo energetico e la dimensione delle bombe, non possono essere rivelati a causa di un accordo di riservatezza, xAI si Γ¨ occupata di offuscare e censurare parti del video prima della sua pubblicazione. π₯
Nonostante questo, la cosa piΓΉ importante, come i server GPU di Supermicro, Γ¨ rimasto praticamente intatto per tutta la durata delle riprese. Questi server GPU sono Nvidia HGX H100, una potente soluzione server dotata di otto GPU H100 ciascuna. π La piattaforma HGX H100 Γ¨ integrata nel sistema 4U Universal GPU Liquid Raffreddato da Supermicro, fornendo un raffreddamento a liquido facilmente sostituibile a caldo per ciascuna GPU. βοΈ
Questi server sono organizzati in rack contenenti otto server ciascuno, per un totale di 64 GPU per fotogramma. I connettori 1U sono inseriti tra ogni HGX H100, garantendo il raffreddamento a liquido necessario per i server. Nella parte inferiore di ogni rack troviamo un'altra unitΓ Supermicro 4U, questa volta dotata di un sistema di pompaggio ridondante e di un sistema di monitoraggio del rack. π


π₯οΈ Questi rack sono organizzati in gruppi di otto, consentendo 512 GPU per matrice. Ogni server Γ¨ dotato di quattro alimentatori ridondante. Sul retro degli scaffali di GPU, sono presenti alimentatori trifase, switch Ethernet e un collettore delle dimensioni di un rack che fornisce tutto il raffreddamento a liquido. π§
Il cluster Colossus conta piΓΉ di 1.500 rack. GPU, distribuidos en cerca de 200 conjuntos de bastidores. SegΓΊn Jensen Huang, director ejecutivo de Nvidia, las GPU de estas 200 matrices se instalaron completamente en solo tres semanas. π
PoichΓ© un supercluster di intelligenza artificiale che addestra costantemente i modelli richiede un'enorme larghezza di banda, xAI Γ¨ andato oltre nella sua interconnettivitΓ di rosso. Ogni scheda grafica ha una NIC (network interface controller) da 400 GbE dedicata, con una NIC aggiuntiva da 400 Gb per server. π CiΓ² significa che ogni server HGX H100 dispone di 3,6 Terabit al secondo di Ethernet. Impressionante, non Γ¨ vero? E sΓ¬, l'intero cluster funziona tramite Ethernet, anzichΓ© tramite InfiniBand o altre connessioni esotiche standard nel mondo del supercomputing. π


Naturalmente, un supercomputer come il chatbot Grok 3, che addestra modelli di intelligenza artificiale, ha bisogno di piΓΉ di un semplice GPU per funzionare al meglio. π₯ Sebbene i dettagli sui server di archiviazione e CPU in Colossus siano piuttosto limitati, grazie al video di Patrick e al articolo del blog, sappiamo che questi server sono solitamente in chassis Supermicro. π
All'interno vengono utilizzati server 1U NVMe-forward con CPU della piattaforma x86, che forniscono sia capacitΓ di archiviazione che di elaborazione e sono dotati di raffreddamento a liquido nella parte posteriore. π§ Inoltre, all'esterno si possono vedere banchi di batterie Tesla Megapack molto compatti. β‘οΈ
La funzione start-stop dell'array, con la sua latenza di millisecondi tra i banchi, era troppo per la rete elettrica convenzionale o per i generatori diesel di Musk. Per questo motivo vengono utilizzati diversi Tesla Megapack (ciascuno con una capacitΓ di 3,9 MWh) come fonte di energia intermedia tra il rosso elettricitΓ e supercomputer. π₯οΈπ CiΓ² garantisce un funzionamento ottimale ed efficiente, evitando interruzioni. π¦β¨
π L'utilizzo del supercomputer stabile di Colossus e Musk π
Il supercomputer xAI Colossus Γ¨ attualmente, secondo Nvidia, il piΓΉ grande supercomputer AI al mondo. π€― Mentre molti dei supercomputer piΓΉ importanti del mondo vengono utilizzati nella ricerca da appaltatori o accademici per studiare modelli meteorologici, malattie o altri compiti complessi, Colossus ha la responsabilitΓ esclusiva dell'addestramento dei vari modelli di intelligenza artificiale di X (ex Twitter). Principalmente Grok 3, il chatbot "anti-woke" di Elon disponibile solo per gli abbonati X Premium. π€
Inoltre, ServeTheHome Γ¨ stata informata che Colossus sta formando Modelli di intelligenza artificiale Β«del futuroΒ»; modelos cuyos usos y capacidades supuestamente estΓ‘n mΓ‘s allΓ‘ de las capacidades actuales de la IA. π La primera fase de construcciΓ³n de Colossus estΓ‘ completa y el clΓΊster estΓ‘ completamente operativo, pero aΓΊn no estΓ‘ todo terminado. La supercomputadora de Memphis pronto se actualizarΓ‘ para duplicar su capacidad de GPU, con 50.000 GPU H100 adicionales y 50.000 GPU H200 de prΓ³xima generaciΓ³n. π₯
Questo aggiornamento Inoltre, raddoppierΓ il suo consumo energetico, che Γ¨ giΓ troppo per essere gestito dai 14 generatori diesel che Musk ha aggiunto al sito a luglio. β‘ Sebbene sia inferiore alla promessa di Musk di 300.000 H200 all'interno di Colossus, ciΓ² potrebbe far parte della fase 3 di aggiornamenti. π
D'altra parte, anche il supercomputer Cortex da 50.000 GPU nello stabilimento "Giga Texas" di Tesla appartiene alla societΓ Musk. Cortex si dedica alla formazione della tecnologia AI autonoma di Tesla attraverso lo streaming di telecamere e il rilevamento di immagini, nonchΓ© ai robot autonomi di Tesla e ad altri progetti di intelligenza artificiale. π€π
Inoltre, Tesla vedrΓ presto la costruzione del supercomputer Dojo a Buffalo, New York, un progetto da 500 milioni di dollari in arrivo. πΈ Nel frattempo, speculatori del settore come Robin Li, CEO di Baidu, prevedono che il 99% delle aziende di intelligenza artificiale potrebbero crollare quando la bolla scoppierΓ . Resta da vedere se la spesa record di Musk per lβintelligenza artificiale si ritorcerΓ contro o darΓ i suoi frutti. β³




















