Die Geheimnisse von xAI Colossus: 100.000 GPUs

🌟 Die Geheimnisse von xAI Colossus: Entdecken Sie Elon Musks 100.000 GPU-KI-Cluster 🚀

🌟 Die Geheimnisse von xAI Colossus: Entdecken Sie Elon Musks 100.000 GPU-KI-Cluster 🚀

Wenn Sie sich für künstliche Intelligenz und Spitzentechnologie begeistern, kommen Sie nicht umhin, herauszufinden, was Elon Musk mit seinem KI-Cluster macht. Dieser Technologieriese, bekannt als xAI Colossus, sorgt in der Technologiewelt für großes Aufsehen. Mit einer atemberaubenden Rechenleistung von 100.000 GPUs ist dieser Cluster ein wahres Wunderwerk moderner Technik. 🤖💻

In diesem Artikel werden wir die Geheimnisse hinter dieser erstaunlichen Innovation lüften technologisch. Wir werden untersuchen, wie xAI Colossus den Bereich revolutioniert künstliche Intelligenz und was das für die Zukunft bedeutet. 🌟 Machen Sie sich bereit für eine faszinierende Reise ins Herz einer der größten Meisterleistungen technologisch unserer Zeit. 🚀 Verpassen Sie es nicht!

Elon Musks teures neues Projekt, der KI-Supercomputer xAI Colossus, wurde erstmals detailliert beschrieben. Der Youtuber ServeTheHome hatte Zugriff auf die Supermicro-Server im 100.000er-Biest GPU, das verschiedene Facetten dieses Supercomputers zeigt. Musks xAI-Colossus-Supercluster ist seit fast zwei Monaten online, nachdem die Montage 122 Tage gedauert hatte. 🔧💡

Im weltgrößten KI-Supercluster xAI Colossus – YouTube

Was steckt in einem Cluster mit 100.000 GPUs? 🤔

Patrick von ServeTheHome nimmt uns mit seiner Kamera mit auf einen Rundgang durch verschiedene Teile des Servers und bietet einen Panoramablick auf seinen Betrieb. Obwohl einige Details Genauere Informationen zum Supercomputer, wie etwa sein Stromverbrauch und die Größe der Bomben, konnten aufgrund einer Vertraulichkeitsvereinbarung nicht preisgegeben werden, xAI kümmerte sich vor der Veröffentlichung um die Unkenntlichmachung und Zensur von Teilen des Videos. 🎥

Trotzdem blieben die wichtigsten Dinge, wie etwa die GPU-Server von Supermicro, im Filmmaterial weitgehend intakt. Diese GPU-Server sind Nvidia HGX H100, eine leistungsstarke Serverlösung mit jeweils acht H100-GPUs. 🚀 Die HGX H100-Plattform ist in das 4U Universal GPU Liquid-System integriert Gekühlt von Supermicro und bietet eine einfach im laufenden Betrieb austauschbare Flüssigkeitskühlung für jede GPU. ❄️

Diese Server sind in Racks mit jeweils acht Servern organisiert, also insgesamt 64 GPUs pro Rack. Zwischen jedem HGX H100 sind 1U-Kollektoren angeordnet, die für die erforderliche Flüssigkeitskühlung der Server sorgen. Unten in jedem Rack finden wir eine weitere 4U-Supermicro-Einheit, dieses Mal ausgestattet mit einem redundanten Pumpensystem und einem Rack-Überwachungssystem. 🔍

Vier Bänke mit xAI HGX H100 Server-Racks mit einer Kapazität für jeweils acht Server. (Bildnachweis: ServeTheHome) Der hintere Zugang eines xAI Colossus GPU-Servers. Von jedem Server kommen neun Ethernet-Kabel mit jeweils vier Netzteilen. Auch die Versorgungs- und Flüssigkeitskühlungsschläuche sind sichtbar.(Bildnachweis: ServeTheHome)

🖥️ Diese Racks sind in Gruppen zu je acht angeordnet, was 512 GPUs pro Chip ermöglicht. Jeder Server ist ausgestattet mit vier Stromversorgungen überflüssig. Auf der Rückseite der GPU-Racks befinden sich Dreiphasennetzteile, Ethernet-Switches und ein Verteiler in Rackgröße, der die gesamte Flüssigkeitskühlung bereitstellt. 💧

Im Colossus-Cluster gibt es mehr als 1.500 GPU-Racks, verteilt auf fast 200 Rack-Sets. Laut Jensen Huang, CEO von NvidiaDie GPUs auf diesen 200 Chips wurden in nur drei Wochen vollständig installiert. 🚀

Da ein KI-Supercluster, der ständig Modelle trainiert, eine hohe Bandbreite benötigt, ging xAI bei der Netzwerkkonnektivität noch einen Schritt weiter. Jede Grafikkarte Es verfügt über eine dedizierte 400-GbE-NIC (Netzwerkschnittstellen-Controller) mit einer zusätzlichen 400-Gb-NIC pro Server. 🔗 Das bedeutet, dass jeder HGX H100-Server über 3,6 Terabit pro Sekunde Ethernet verfügt. Beeindruckend, oder? Und ja, der gesamte Cluster läuft über Ethernet und nicht über InfiniBand oder andere exotische Verbindungen, die im Supercomputing-Bereich Standard sind. 🌐

Eine Aufnahme mit Blick auf die Wellen und Wellen gelber Ethernet-Kabel, die den xAI Colossus-Cluster mit sich selbst verbinden. In der Decke sind mehrere Lagen übermäßig breiter Kabel eingelassen.(Bildnachweis: ServeTheHome)Auch die Colossus CPU-Rechenserver von xAI, die genauso aussehen wie die Speicherserver von Supermicro, werden auf der Website häufig verwendet.(Bildnachweis: ServeTheHome)

Natürlich braucht ein Supercomputer wie der Chatbot Grok 3, der KI-Modelle trainiert, mehr als nur die GPU, um seine beste Leistung zu erbringen. 🔥 Obwohl die Details zu Speicher- und CPU-Servern auf Colossus etwas begrenzt sind, dank Patricks Video und dem BlogbeitragWir wissen, dass sich diese Server normalerweise in Supermicro-Gehäusen befinden. 🚀

Im Inneren kommen 1U-NVMe-Forward-Server mit x86-Plattform-CPUs zum Einsatz, die sowohl Speicher als auch Kapazität bereitstellen. Rechnenund sind auf der Rückseite mit einer Flüssigkeitskühlung ausgestattet. 💧 Darüber hinaus kann man draußen Ufer sehen Batterien Sehr kompaktes Tesla Megapack. ⚡️

Die Start-Stopp-Funktion des Arrays mit seiner Latenzzeit von Millisekunden zwischen den Bänken war zu viel für das herkömmliche Stromnetz oder die Dieselgeneratoren von Musk. Aus diesem Grund werden mehrere Tesla-Megapacks (jeweils mit einer Kapazität von 3,9 MWh) als Zwischenenergieträger eingesetzt Netz Elektrizität und der Supercomputer. 🖥️🔋 Dadurch wird ein optimaler und effizienter Betrieb gewährleistet und Unterbrechungen vermieden. 🚦✨

🌟 Der Einsatz des stabilen Supercomputers von Colossus und Musk 🌟

Der Supercomputer xAI Colossus ist laut Nvidia derzeit der größte KI-Supercomputer der Welt. 🤯 Während viele der weltweit führenden Supercomputer von Auftragnehmern oder Wissenschaftlern in der Forschung eingesetzt werden, um Wettermuster, Krankheiten oder andere komplexe Aufgaben zu untersuchen, trägt Colossus die alleinige Verantwortung für das Training der verschiedenen KI-Modelle von X (ehemals Twitter). Hauptsächlich Grok 3, Elons „Anti-Woke“-Chatbot, der nur für X Premium-Abonnenten verfügbar ist. 🤖

Darüber hinaus wurde ServeTheHome darüber informiert, dass Colossus KI-Modelle „der Zukunft“ trainiert; Modelle, deren Einsatzmöglichkeiten und Fähigkeiten angeblich über die aktuellen Möglichkeiten der KI hinausgehen. 🚀 Die erste Phase des Colossus-Baus ist abgeschlossen und der Cluster ist voll betriebsbereit, aber es ist noch nicht alles fertig. Der Supercomputer von Memphis wird es bald sein wird aktualisiert seine GPU-Kapazität zu verdoppeln, mit zusätzlichen 50.000 H100-GPUs und 50.000 H200-GPUs der nächsten Generation. 🔥

Das aktualisieren Außerdem wird sich der Energieverbrauch mehr als verdoppeln, was für die 14 Dieselgeneratoren, die Musk im Juli am Standort hinzugefügt hat, bereits zu viel ist. ⚡ Obwohl es unter Musks Versprechen von 300.000 H200 innerhalb von Colossus liegt, könnte dies Teil von Phase 3 sein Aktualisierungen. 🔋

Andererseits gehört auch der 50.000-GPU-Cortex-Supercomputer in Teslas „Giga Texas“-Werk einem Musk-Unternehmen. Cortex widmet sich dem Training Technologie Teslas autonome KI-Technologie durch Kamera-Streaming und Bilderkennung sowie Teslas autonome Roboter und andere KI-Projekte. 🤖🚗

Darüber hinaus wird Tesla bald den Bau des Dojo-Supercomputers in Buffalo, New York, erleben, ein 500-Millionen-Dollar-Projekt, das in Kürze ansteht. 💸 Unterdessen sagen Branchenspekulanten wie Baidu-CEO Robin Li voraus, dass 99 % der KI-Unternehmen zusammenbrechen könnten, wenn die Blase platzt. Es bleibt abzuwarten, ob Musks Rekordausgaben für KI nach hinten losgehen oder sich auszahlen. ⏳

5 3 Stimmen
Artikelbewertung
Abonnieren
Benachrichtigen Sie über
Gast

0 Kommentare
älteste
Neueste Die meisten haben abgestimmt
Online-Kommentare
Alle Kommentare anzeigen