🌟 Os segredos do xAI Colossus: Descubra o cluster de IA de 100.000 GPUs de Elon Musk 🚀
Se você é apaixonado por inteligência artificial e tecnologia de ponta, não pode deixar de descobrir o que Elon Musk está fazendo com seu cluster de IA. Este gigante da tecnologia, conhecido como xAI Colossus, está criando um grande rebuliço no mundo da tecnologia. Com um impressionante poder de processamento de 100.000 GPUs, este cluster é uma verdadeira maravilha da engenharia moderna. 🤖💻
Neste artigo vamos desvendar os segredos por trás dessa incrível inovação tecnológica. Exploraremos como o xAI Colossus está revolucionando o campo da inteligência artificial e o que isso significa para o futuro. 🌟 Prepare-se para uma viagem fascinante ao coração de um dos maiores feitos tecnológicos do nosso tempo. 🚀 Não perca!
O caro novo projeto de Elon Musk, o supercomputador xAI Colossus AI, foi detalhado pela primeira vez. O YouTuber ServeTheHome teve acesso aos servidores da Supermicro dentro da fera de 100.000 GPUs, mostrando várias facetas deste supercomputador. O superaglomerado xAI Colossus de Musk está online há quase dois meses, após a montagem que durou 122 dias. 🔧💡
O que há dentro de um cluster de 100.000 GPUs? 🤔
Patrick da ServeTheHome nos leva em um tour com sua câmera por diferentes partes do servidor, oferecendo uma visão panorâmica de seu funcionamento. Embora alguns detalhes mais específicos do supercomputador, como seu consumo de energia e o tamanho das bombas, não tenham podido ser revelados devido a um acordo de confidencialidade, a xAI se encarregou de desfocar e censurar partes do vídeo antes de seu lançamento. 🎥
Apesar disso, as coisas mais importantes, como os servidores GPU da Supermicro, permaneceram praticamente intactas nas imagens. Esses servidores GPU são Nvidia HGX H100, uma solução de servidor poderosa com oito GPUs H100 cada. 🚀 A plataforma HGX H100 está integrada ao sistema 4U Universal GPU Liquid Cooled da Supermicro, que fornece resfriamento líquido facilmente hot-swap para cada GPU. ❄️
Esses servidores são organizados em racks contendo oito servidores cada, totalizando 64 GPUs por rack. Coletores 1U são colocados entre cada HGX H100, fornecendo o resfriamento líquido necessário para os servidores. Na parte inferior de cada rack, encontramos outra unidade Supermicro 4U, desta vez equipada com sistema de bomba redundante e sistema de monitoramento de rack. 🔍
🖥️ Esses racks são organizados em grupos de oito, permitindo 512 GPUs por matriz. Cada servidor está equipado com quatro fontes de alimentação redundantes. Na parte traseira dos racks da GPU estão fontes de alimentação trifásicas, switches Ethernet e um coletor do tamanho de um rack que fornece todo o resfriamento líquido. 💧
Existem mais de 1.500 racks de GPU no cluster Colossus, distribuídos em quase 200 conjuntos de racks. De acordo com o CEO da Nvidia, Jensen Huang, as GPUs nessas 200 matrizes foram totalmente instaladas em apenas três semanas. 🚀
Como um superaglomerado de IA que treina modelos constantemente requer alta largura de banda, o xAI foi além em sua interconectividade de rede. Cada placa gráfica possui uma NIC (controlador de interface de rede) de 400 GbE dedicada, com uma NIC adicional de 400 Gb por servidor. 🔗 Isso significa que cada servidor HGX H100 possui 3,6 Terabit por segundo de Ethernet. Impressionante, certo? E sim, todo o cluster funciona em Ethernet, em vez de InfiniBand ou outras conexões exóticas que são padrão no espaço de supercomputação. 🌐
É claro que um supercomputador como o chatbot Grok 3, que treina modelos de IA, precisa de mais do que apenas a GPU para ter o melhor desempenho. 🔥 Embora os detalhes sobre armazenamento e servidores de CPU no Colossus sejam um tanto limitados, graças ao vídeo de Patrick e ao postagem no blog, sabemos que esses servidores geralmente estão em chassis Supermicro. 🚀
Servidores 1U NVMe-forward com CPUs de plataforma x86 são usados internamente, fornecendo capacidade de armazenamento e computação, e são equipados com refrigeração líquida na parte traseira. 💧 Além disso, do lado de fora você pode ver bancos de baterias Tesla Megapack muito compactos. ⚡️
O recurso start-stop do array, com sua latência de milissegundos entre os bancos, era demais para a rede elétrica convencional ou para os geradores a diesel de Musk. Por esta razão, vários Tesla Megapacks (cada um com capacidade de 3,9 MWh) são utilizados como fonte de energia intermediária entre a rede elétrica e o supercomputador. 🖥️🔋 Isso garante um funcionamento ideal e eficiente, evitando interrupções. 🚦✨
🌟 O uso do supercomputador estável de Colossus e Musk 🌟
O supercomputador xAI Colossus é atualmente, segundo a Nvidia, o maior supercomputador de IA do mundo. 🤯 Embora muitos dos principais supercomputadores do mundo sejam usados em pesquisas por empreiteiros ou acadêmicos para estudar padrões climáticos, doenças ou outras tarefas complexas, a Colossus é a única responsável por treinar os vários modelos de IA do X (anteriormente Twitter). Principalmente, Grok 3, o chatbot “anti-woke” de Elon que está disponível apenas para assinantes X Premium. 🤖
Além disso, ServeTheHome foi informado que a Colossus está treinando modelos de IA “do futuro”; modelos cujos usos e capacidades estão supostamente além das capacidades atuais da IA. 🚀 A primeira fase da construção do Colossus está concluída e o cluster está totalmente operacional, mas ainda não está tudo concluído. O supercomputador Memphis será atualizado em breve para dobrar sua capacidade de GPU, com 50.000 GPUs H100 adicionais e 50.000 GPUs H200 de próxima geração. 🔥
Esta atualização também mais do que duplicará o seu consumo de energia, o que já é demasiado para os 14 geradores a diesel que Musk adicionou ao local em julho. ⚡ Embora esteja abaixo da promessa de Musk de 300.000 H200s no Colossus, isso pode fazer parte da fase 3 de atualizações. 🔋
Por outro lado, o supercomputador Cortex de 50.000 GPUs da fábrica “Giga Texas” da Tesla também pertence a uma empresa de Musk. A Cortex se dedica a treinar a tecnologia de IA autônoma da Tesla por meio de streaming de câmera e detecção de imagens, bem como os robôs autônomos da Tesla e outros projetos de IA. 🤖🚗
Além disso, a Tesla verá em breve a construção do supercomputador Dojo em Buffalo, Nova York, um projeto de US$ 500 milhões que será lançado em breve. 💸 Enquanto isso, especuladores do setor, como o CEO do Baidu, Robin Li, prevêem que 99% das empresas de IA poderão entrar em colapso quando a bolha estourar. Resta saber se os gastos recordes de Musk em IA serão um tiro pela culatra ou serão recompensados. ⏳