🌟 Los Secretos de xAI Colossus: Descubrí el Clúster de IA de 100.000 GPU de Elon Musk 🚀
Si te apasiona la inteligencia artificial y la tecnología de última generación, no podés dejar de enterarte de lo que Elon Musk está haciendo con su clúster de IA. Este gigante tecnológico, conocido como xAI Colossus, está generando un gran revuelo en el mundo de la tecnología. Con un asombroso poder de procesamiento de 100.000 GPU, este clúster es una verdadera maravilla de la ingeniería moderna. 🤖💻
En este artículo, vamos a desentrañar los secretos detrás de esta asombrosa innovación tecnológica. Exploraremos cómo xAI Colossus está revolucionando el campo de la inteligencia artificial y qué significa esto para el futuro. 🌟 Prepárate para un viaje fascinante al corazón de una de las mayores proezas tecnológicas de nuestro tiempo. 🚀 ¡No te lo pierdas!
El nuevo y costoso proyecto de Elon Musk, la supercomputadora xAI Colossus AI, se ha detallado por primera vez. El youtuber ServeTheHome tuvo acceso a los servidores Supermicro dentro de la bestia de 100.000 GPU, mostrando diversas facetas de esta supercomputadora. El supercúmulo xAI Colossus de Musk ha estado en línea durante casi dos meses, luego de un ensamblaje que tomó 122 días. 🔧💡
¿Qué hay dentro de un clúster de 100.000 GPU? 🤔
Patrick de ServeTheHome nos lleva de paseo con su cámara por distintas partes del servidor, ofreciendo una vista panorámica de sus operaciones. Aunque algunos detalles más específicos de la supercomputadora, como su consumo de energía y el tamaño de las bombas, no pudieron revelarse debido a un acuerdo de confidencialidad, xAI se encargó de difuminar y censurar partes del video antes de su lanzamiento. 🎥
A pesar de esto, lo más importante, como los servidores GPU de Supermicro, se mantuvo prácticamente intacto en el metraje. Estos servidores GPU son Nvidia HGX H100, una potente solución de servidor que cuenta con ocho GPU H100 cada una. 🚀 La plataforma HGX H100 está integrada dentro del sistema 4U Universal GPU Liquid Cooled de Supermicro, que proporciona refrigeración líquida fácilmente intercambiable en caliente para cada GPU. ❄️
Estos servidores se organizan en bastidores que contienen ocho servidores cada uno, sumando un total de 64 GPU por bastidor. Los colectores de 1U se intercalan entre cada HGX H100, proveyendo la refrigeración líquida necesaria para los servidores. En la parte inferior de cada bastidor, encontramos otra unidad Supermicro 4U, esta vez equipada con un sistema de bomba redundante y un sistema de monitoreo de bastidor. 🔍
🖥️ Estos bastidores están organizados en grupos de ocho, lo que permite tener 512 GPU por matriz. Cada servidor está equipado con cuatro fuentes de alimentación redundantes. En la parte posterior de los bastidores de GPU, se encuentran fuentes de alimentación trifásicas, conmutadores Ethernet y un colector del tamaño de un bastidor que proporciona toda la refrigeración líquida. 💧
En el clúster Colossus hay más de 1500 bastidores de GPU, distribuidos en cerca de 200 conjuntos de bastidores. Según Jensen Huang, director ejecutivo de Nvidia, las GPU de estas 200 matrices se instalaron completamente en solo tres semanas. 🚀
Dado que un superclúster de IA que entrena modelos constantemente requiere un gran ancho de banda, xAI fue más allá en su interconectividad de red. Cada tarjeta gráfica dispone de una NIC (controlador de interfaz de red) dedicada de 400 GbE, con una NIC adicional de 400 Gb por servidor. 🔗 Esto significa que cada servidor HGX H100 tiene 3,6 Terabit por segundo de Ethernet. Impresionante, ¿no? Y sí, todo el clúster funciona en Ethernet, en lugar de InfiniBand u otras conexiones exóticas que son estándar en el ámbito de la supercomputación. 🌐
Claro, una supercomputadora como el chatbot Grok 3, que entrena modelos de IA, necesita más que solo GPU para funcionar al máximo. 🔥 Aunque los detalles sobre el almacenamiento y los servidores de CPU en Colossus son algo limitados, gracias al video de Patrick y a la publicación en el blog, sabemos que estos servidores suelen estar en chasis de Supermicro. 🚀
Se utilizan servidores NVMe-forward 1U con CPUs de plataforma x86 en su interior, proporcionando tanto almacenamiento como capacidad de computación, y están equipados con refrigeración líquida por la parte trasera. 💧 Además, afuera se pueden ver bancos de baterías Tesla Megapack muy compactos. ⚡️
La característica de arranque y parada de la matriz, con su latencia de milisegundos entre bancos, era demasiado para la red eléctrica convencional o los generadores diésel de Musk. Por eso, se emplean varios Tesla Megapacks (cada uno con capacidad de 3,9 MWh) como fuente de energía intermedia entre la red eléctrica y la supercomputadora. 🖥️🔋 Esto asegura un funcionamiento óptimo y eficiente, evitando interrupciones. 🚦✨
🌟 El uso de Colossus y la supercomputadora estable de Musk 🌟
La supercomputadora xAI Colossus es actualmente, según Nvidia, la supercomputadora de IA más grande del mundo. 🤯 Mientras que muchas de las supercomputadoras líderes del mundo son utilizadas en investigaciones por contratistas o académicos para estudiar patrones climáticos, enfermedades u otras tareas complejas, Colossus tiene la responsabilidad exclusiva de entrenar los diversos modelos de IA de X (anteriormente Twitter). Principalmente, Grok 3, el chatbot «anti-despertar» de Elon que está disponible solo para suscriptores de X Premium. 🤖
Además, se informó a ServeTheHome que Colossus está entrenando modelos de IA «del futuro»; modelos cuyos usos y capacidades supuestamente están más allá de las capacidades actuales de la IA. 🚀 La primera fase de construcción de Colossus está completa y el clúster está completamente operativo, pero aún no está todo terminado. La supercomputadora de Memphis pronto se actualizará para duplicar su capacidad de GPU, con 50.000 GPU H100 adicionales y 50.000 GPU H200 de próxima generación. 🔥
Esta actualización también duplicará con creces su consumo de energía, que ya es demasiado para que los 14 generadores diésel que Musk agregó al sitio en julio puedan manejar. ⚡ Aunque está por debajo de la promesa de Musk de 300.000 H200 dentro de Colossus, eso podría formar parte de la fase 3 de actualizaciones. 🔋
Por otro lado, la supercomputadora Cortex de 50.000 GPU en la planta de Tesla «Giga Texas» también pertenece a una empresa de Musk. Cortex se dedica a entrenar la tecnología de inteligencia artificial autónoma de Tesla a través de la transmisión de cámaras y la detección de imágenes, así como los robots autónomos de Tesla y otros proyectos de inteligencia artificial. 🤖🚗
Además, Tesla verá pronto la construcción de la supercomputadora Dojo en Buffalo, Nueva York, un proyecto de 500 millones de dólares que llegará próximamente. 💸 Mientras tanto, especuladores de la industria como el CEO de Baidu, Robin Li, predicen que el 99% de las empresas de IA podrían desmoronarse cuando estalle la burbuja. Queda por ver si el gasto récord de Musk en IA será contraproducente o dará sus frutos. ⏳