I segreti di xAI Colossus: 100.000 GPU

🌟 I segreti del colosso xAI: scopri il cluster AI da 100.000 GPU di Elon Musk 🚀

🌟 I segreti del colosso xAI: scopri il cluster AI da 100.000 GPU di Elon Musk 🚀

Se sei appassionato di intelligenza artificiale e tecnologia all'avanguardia, non puoi fare a meno di scoprire cosa sta facendo Elon Musk con il suo cluster AI. Questo gigante della tecnologia, noto come xAI Colossus, sta creando molto scalpore nel mondo della tecnologia. Con un'incredibile potenza di elaborazione di 100.000 GPU, questo cluster è una vera meraviglia dell'ingegneria moderna. 🤖💻

In questo articolo sveleremo i segreti dietro questa straordinaria innovazione tecnologico. Esploreremo come xAI Colossus sta rivoluzionando il campo dell' intelligenza artificiale e cosa questo significa per il futuro. 🌟 Preparatevi per un affascinante viaggio nel cuore di una delle più grandi imprese tecnologico del nostro tempo. 🚀 Da non perdere!

Il nuovo costoso progetto di Elon Musk, il supercomputer xAI Colossus AI, è stato dettagliato per la prima volta. Lo Youtuber ServeTheHome ha avuto accesso ai server Supermicro all'interno della bestia 100.000 GPU, mostrando vari aspetti di questo supercomputer. Il superammasso xAI Colossus di Musk è online da quasi due mesi, dopo un assemblaggio durato 122 giorni. 🔧💡

All'interno del supercluster AI più grande del mondo, xAI Colossus - YouTube

Cosa c'è dentro un cluster da 100.000 GPU? 🤔

Patrick di ServeTheHome ci accompagna in un tour con la sua fotocamera attraverso diverse parti del server, offrendo una vista panoramica delle sue operazioni. Anche se alcuni dettagli Dettagli più specifici sul supercomputer, come il suo consumo energetico e la dimensione delle bombe, non possono essere rivelati a causa di un accordo di riservatezza, xAI si è occupata di offuscare e censurare parti del video prima della sua pubblicazione. 🎥

Nonostante ciò, le cose più importanti, come i server GPU di Supermicro, sono rimaste in gran parte intatte nel filmato. Questi server GPU lo sono Nvidia HGX H100, una potente soluzione server dotata di otto GPU H100 ciascuna. 🚀 La piattaforma HGX H100 è integrata nel sistema 4U Universal GPU Liquid Raffreddato da Supermicro, fornendo un raffreddamento a liquido facilmente sostituibile a caldo per ciascuna GPU. ❄️

Questi server sono organizzati in rack contenenti otto server ciascuno, per un totale di 64 GPU per rack. I collettori 1U sono inseriti tra ciascun HGX H100, fornendo il necessario raffreddamento a liquido per i server. Nella parte inferiore di ciascun rack troviamo un'altra unità Supermicro 4U, questa volta dotata di un sistema di pompe ridondanti e di un sistema di monitoraggio del rack. 🔍

Quattro banchi di server rack xAI HGX H100, con capacità per otto server ciascuno. (Credito immagine: ServeTheHome) L'accesso posteriore di un server GPU xAI Colossus. Da ciascun server escono nove cavi Ethernet, con quattro alimentatori su ciascuno. Sono visibili anche i tubi di alimentazione e di raffreddamento del liquido.(Credito immagine: ServeTheHome)

🖥️ Estos bastidores están organizados en grupos de ocho, lo que permite tener 512 GPU por matriz. Cada servidor está equipado con cuatro alimentatori redundantes. En la parte posterior de los bastidores de GPU, se encuentran fuentes de alimentación trifásicas, conmutadores Ethernet y un colector del tamaño de un bastidor que proporciona toda la refrigeración líquida. 💧

Nel cluster Colossus sono presenti più di 1.500 rack GPU, distribuiti su quasi 200 set di rack. Secondo Jensen Huang, CEO di Nvidia, le GPU su questi 200 die sono state installate completamente in sole tre settimane. 🚀

Poiché un supercluster di intelligenza artificiale che addestra costantemente i modelli richiede un’elevata larghezza di banda, xAI è andato oltre nella sua interconnettività di rete. Ogni scheda grafica Dispone di una NIC dedicata da 400 GbE (controller dell'interfaccia di rete), con una NIC aggiuntiva da 400 Gb per server. 🔗 Ciò significa che ogni server HGX H100 ha 3,6 Terabit al secondo di Ethernet. Impressionante, vero? E sì, l’intero cluster funziona su Ethernet, piuttosto che su InfiniBand o altre connessioni esotiche che sono standard nello spazio del supercalcolo. 🌐

Uno scatto che guarda le onde e le onde di cavi Ethernet gialli che collegano il cluster xAI Colossus a se stesso. Nel soffitto sono incastonati diversi strati di cavi eccessivamente larghi.(Credito immagine: ServeTheHome)Anche i server di elaborazione CPU Colossus di xAI, che sembrano esattamente uguali ai server di archiviazione di Supermicro, sono ampiamente utilizzati sul sito.(Credito immagine: ServeTheHome)

Naturalmente, un supercomputer come il chatbot Grok 3, che addestra modelli di intelligenza artificiale, ha bisogno di qualcosa di più della semplice GPU per funzionare al meglio. 🔥 Sebbene i dettagli sullo storage e sui server CPU su Colossus siano alquanto limitati, grazie al video di Patrick e al articolo del blog, sappiamo che questi server sono solitamente in chassis Supermicro. 🚀

All'interno vengono utilizzati server 1U NVMe-forward con CPU della piattaforma x86, che forniscono sia spazio di archiviazione che capacità. informatica, e sono dotati di raffreddamento a liquido nella parte posteriore. 💧 Inoltre, all'esterno si possono vedere sponde di batterie Tesla Megapack molto compatto. ⚡️

La funzione start-stop dell'array, con la sua latenza di millisecondi tra i banchi, era troppo per la rete elettrica convenzionale o per i generatori diesel di Musk. Per questo motivo vengono utilizzati diversi Tesla Megapack (ciascuno con una capacità di 3,9 MWh) come fonte di energia intermedia tra il griglia elettricità e supercomputer. 🖥️🔋 Ciò garantisce un funzionamento ottimale ed efficiente, evitando interruzioni. 🚦✨

🌟 L'utilizzo del supercomputer stabile di Colossus e Musk 🌟

Il supercomputer xAI Colossus è attualmente, secondo Nvidia, il più grande supercomputer AI al mondo. 🤯 Mentre molti dei supercomputer più importanti del mondo vengono utilizzati nella ricerca da appaltatori o accademici per studiare modelli meteorologici, malattie o altri compiti complessi, Colossus ha la responsabilità esclusiva dell'addestramento dei vari modelli di intelligenza artificiale di X (ex Twitter). Principalmente Grok 3, il chatbot "anti-woke" di Elon disponibile solo per gli abbonati X Premium. 🤖

Inoltre, ServeTheHome è stata informata che Colossus sta addestrando modelli di intelligenza artificiale “del futuro”; modelli i cui usi e capacità vanno presumibilmente oltre le attuali capacità dell’intelligenza artificiale. 🚀 La prima fase di costruzione del Colosso è completata e il cluster è pienamente operativo, ma non è ancora tutto finito. Presto arriverà il supercomputer di Memphis aggiornerà raddoppiare la propria capacità GPU, con ulteriori 50.000 GPU H100 e 50.000 GPU H200 di nuova generazione. 🔥

Questo aggiornamento Inoltre, raddoppierà il suo consumo energetico, che è già troppo per essere gestito dai 14 generatori diesel che Musk ha aggiunto al sito a luglio. ⚡ Sebbene sia inferiore alla promessa di Musk di 300.000 H200 all'interno di Colossus, ciò potrebbe far parte della fase 3 di aggiornamenti. 🔋

D'altro canto, anche il supercomputer Cortex da 50.000 GPU dello stabilimento Tesla "Giga Texas" appartiene alla società Musk. Cortex si dedica alla formazione del tecnologia La tecnologia AI autonoma di Tesla attraverso lo streaming di telecamere e il rilevamento di immagini, nonché i robot autonomi di Tesla e altri progetti di intelligenza artificiale. 🤖🚗

Inoltre, Tesla vedrà presto la costruzione del supercomputer Dojo a Buffalo, New York, un progetto da 500 milioni di dollari in arrivo. 💸 Nel frattempo, speculatori del settore come Robin Li, CEO di Baidu, prevedono che il 99% delle aziende di intelligenza artificiale potrebbero crollare quando la bolla scoppierà. Resta da vedere se la spesa record di Musk per l’intelligenza artificiale si ritorcerà contro o darà i suoi frutti. ⏳

5 3 voti
Valutazione dell'articolo
Iscriviti
Notifica di
ospite

0 Commenti
più antico
Più recente I più votati
Commenti in linea
Vedi tutti i commenti