🌟 Les secrets de xAI Colossus : découvrez le cluster IA de 100 000 GPU d'Elon Musk 🚀
Si vous êtes passionné par l'intelligence artificielle et les technologies de pointe, vous ne pourrez pas vous empêcher de découvrir ce que fait Elon Musk avec son cluster IA. Ce géant de la technologie, connu sous le nom de xAI Colossus, fait sensation dans le monde de la technologie. Avec une puissance de traitement stupéfiante de 100 000 GPU, ce cluster est une véritable merveille d’ingénierie moderne. 🤖💻
Dans cet article, nous allons percer les secrets de cette étonnante innovation technologique. Nous explorerons comment xAI Colossus révolutionne le domaine de l'intelligence artificielle et ce que cela signifie pour l'avenir. 🌟 Préparez-vous à un voyage passionnant au cœur de l'une des plus grandes prouesses technologiques de notre époque. 🚀 Ne le manquez pas !
Le nouveau projet coûteux d'Elon Musk, le supercalculateur xAI Colossus AI, a été détaillé pour la première fois. YouTuber ServeTheHome a eu accès aux serveurs Supermicro à l'intérieur de la bête à 100 000 GPU, montrant diverses facettes de ce supercalculateur. Le supercluster xAI Colossus de Musk est en ligne depuis près de deux mois, après un assemblage qui a duré 122 jours. 🔧💡
Que contient un cluster de 100 000 GPU ? 🤔
Patrick de ServeTheHome nous fait visiter avec sa caméra différentes parties du serveur, offrant une vue panoramique de ses opérations. Bien que certains détails plus spécifiques du supercalculateur, comme sa consommation électrique et la taille des bombes, n'aient pas pu être révélés en raison d'un accord de confidentialité, xAI a pris soin de flouter et de censurer certaines parties de la vidéo avant sa diffusion. 🎥
Malgré cela, les éléments les plus importants, comme les serveurs GPU de Supermicro, sont restés en grande partie intacts dans les images. Ces serveurs GPU sont Nvidia HGX H100, une solution serveur puissante comprenant huit GPU H100 chacun. 🚀 La plate-forme HGX H100 est intégrée au système 4U Universal GPU Liquid Cooled de Supermicro, qui fournit un refroidissement liquide facilement remplaçable à chaud pour chaque GPU. ❄️
Ces serveurs sont organisés en racks contenant chacun huit serveurs, pour un total de 64 GPU par rack. Des collecteurs 1U sont pris en sandwich entre chaque HGX H100, fournissant le refroidissement liquide nécessaire aux serveurs. Au bas de chaque rack, on retrouve une autre unité Supermicro 4U, cette fois équipée d'un système de pompe redondante et d'un système de surveillance du rack. 🔍
🖥️ Ces racks sont organisés en groupes de huit, permettant 512 GPU par die. Chaque serveur est équipé de quatre alimentations redondantes. À l'arrière des racks GPU se trouvent des alimentations triphasées, des commutateurs Ethernet et un collecteur de la taille d'un rack qui assure tout le refroidissement liquide. 💧
Il existe plus de 1 500 racks GPU dans le cluster Colossus, répartis sur près de 200 ensembles de racks. Selon Jensen Huang, PDG de Nvidia, les GPU de ces 200 puces ont été entièrement installés en seulement trois semaines. 🚀
Puisqu’un supercluster d’IA qui entraîne constamment des modèles nécessite une bande passante élevée, xAI est allé plus loin dans son interconnectivité réseau. Chaque carte graphique dispose d'une carte réseau 400 GbE dédiée (contrôleur d'interface réseau), avec une carte réseau 400 Go supplémentaire par serveur. 🔗 Cela signifie que chaque serveur HGX H100 dispose de 3,6 térabits par seconde d'Ethernet. Impressionnant, non ? Et oui, l'ensemble du cluster fonctionne sur Ethernet, plutôt que sur InfiniBand ou d'autres connexions exotiques standard dans l'espace des supercalculateurs. 🌐
Bien entendu, un superordinateur comme le chatbot Grok 3, qui entraîne des modèles d’IA, a besoin de plus que du GPU pour fonctionner de manière optimale. 🔥 Bien que les détails sur les serveurs de stockage et CPU sur Colossus soient quelque peu limités, grâce à la vidéo de Patrick et au article de blog, on sait que ces serveurs sont généralement dans des châssis Supermicro. 🚀
Des serveurs NVMe 1U avec processeurs de plate-forme x86 sont utilisés à l'intérieur, fournissant à la fois une capacité de stockage et de calcul, et sont équipés d'un refroidissement liquide à l'arrière. 💧 De plus, à l’extérieur, vous pouvez voir des batteries Tesla Megapack très compactes. ⚡️
La fonction start-stop du réseau, avec sa latence d'une milliseconde entre les banques, était trop lourde pour le réseau électrique conventionnel ou les générateurs diesel de Musk. Pour cette raison, plusieurs Tesla Megapacks (chacun d’une capacité de 3,9 MWh) sont utilisés comme source d’énergie intermédiaire entre le réseau électrique et le supercalculateur. 🖥️🔋 Cela garantit un fonctionnement optimal et efficace, en évitant les interruptions. 🚦✨
🌟 L'utilisation du supercalculateur stable de Colossus et Musk 🌟
Le supercalculateur xAI Colossus est actuellement, selon Nvidia, le plus grand supercalculateur d'IA au monde. 🤯 Alors que bon nombre des meilleurs superordinateurs du monde sont utilisés dans la recherche par des entrepreneurs ou des universitaires pour étudier les conditions météorologiques, les maladies ou d'autres tâches complexes, Colossus est seul responsable de la formation des différents modèles d'IA de X (anciennement Twitter). Principalement Grok 3, le chatbot « anti-réveil » d'Elon disponible uniquement pour les abonnés X Premium. 🤖
De plus, ServeTheHome a été informé que Colossus forme des modèles d'IA « du futur » ; des modèles dont les utilisations et les capacités sont censées dépasser les capacités actuelles de l’IA. 🚀 La première phase de construction de Colossus est terminée et le cluster est pleinement opérationnel, mais tout n'est pas encore terminé. Le supercalculateur Memphis sera bientôt mis à niveau pour doubler sa capacité GPU, avec 50 000 GPU H100 supplémentaires et 50 000 GPU H200 de nouvelle génération. 🔥
Cette mise à niveau fera également plus que doubler sa consommation d’énergie, ce qui est déjà trop élevé pour les 14 générateurs diesel que Musk a ajoutés au site en juillet. ⚡ Bien que ce soit en deçà de la promesse d'Elon Musk de 300 000 H200 au sein de Colossus, cela pourrait faire partie de la phase 3 des mises à jour. 🔋
D’un autre côté, le supercalculateur Cortex de 50 000 GPU de l’usine Tesla « Giga Texas » appartient également à une société Musk. Cortex se consacre à la formation de la technologie d'IA autonome de Tesla grâce au streaming de caméras et à la détection d'images, ainsi qu'aux robots autonomes de Tesla et à d'autres projets d'IA. 🤖🚗
De plus, Tesla verra bientôt la construction du supercalculateur Dojo à Buffalo, New York, un projet de 500 millions de dollars à venir. 💸 Pendant ce temps, les spéculateurs de l’industrie comme Robin Li, PDG de Baidu, prédisent que 99 % des entreprises d’IA pourraient s’effondrer lorsque la bulle éclatera. Il reste à voir si les dépenses record d’Elon Musk en matière d’IA se retourneront contre lui ou seront payantes. ⏳