xAI Colossus의 비밀: 100,000개의 GPU

🌟 xAI Colossus의 비밀: Elon Musk의 100,000 GPU AI 클러스터 발견 🚀

🌟 xAI Colossus의 비밀: Elon Musk의 100,000 GPU AI 클러스터 발견 🚀

인공 지능과 최첨단 기술에 열정이 있다면 Elon Musk가 AI 클러스터로 무엇을 하고 있는지 알아보지 않을 수 없습니다. xAI Colossus로 알려진 이 거대 기술 기업은 기술 세계에 큰 반향을 불러일으키고 있습니다. 100,000 GPU의 놀라운 처리 능력을 갖춘 이 클러스터는 현대 엔지니어링의 진정한 경이로움입니다. 🤖💻

이 기사에서 우리는 이 놀라운 기술 혁신 뒤에 숨은 비밀을 밝혀낼 것입니다. xAI Colossus가 인공 지능 분야에 어떻게 혁명을 일으키고 있으며 이것이 미래에 어떤 의미를 갖는지 살펴보겠습니다. 🌟 우리 시대의 가장 위대한 기술적 업적 중 하나의 심장부로 떠나는 매혹적인 여행을 준비하세요. 🚀 놓치지 마세요!

Elon Musk의 값비싼 새 프로젝트인 xAI Colossus AI 슈퍼컴퓨터가 처음으로 자세히 설명되었습니다. 유튜버 ServeTheHome은 100,000 GPU 괴물 내부의 Supermicro 서버에 액세스하여 이 슈퍼컴퓨터의 다양한 측면을 보여주었습니다. Musk의 xAI Colossus 슈퍼 클러스터는 122일이 소요된 조립 이후 거의 두 달 동안 온라인 상태가 되었습니다. 🔧💡

세계 최대 AI 슈퍼 클러스터 xAI Colossus 내부 - YouTube

100,000개의 GPU 클러스터 안에는 무엇이 들어있나요? 🤔

ServeTheHome의 Patrick은 카메라를 들고 서버의 여러 부분을 둘러보며 서버 운영에 대한 파노라마 뷰를 제공합니다. 전력 소비, 폭탄 크기 등 슈퍼컴퓨터에 대한 좀 더 구체적인 세부 사항은 기밀 유지 계약으로 인해 공개할 수 없었지만 xAI는 공개되기 전에 영상의 일부를 흐리게 처리하고 검열했습니다. 🎥

그럼에도 불구하고 Supermicro의 GPU 서버와 같은 가장 중요한 것들은 영상에 거의 그대로 남아 있었습니다. 이러한 GPU 서버는 각각 8개의 H100 GPU를 갖춘 강력한 서버 솔루션인 Nvidia HGX H100입니다. 🚀 HGX H100 플랫폼은 각 GPU에 대해 쉽게 핫스왑 가능한 액체 냉각을 제공하는 Supermicro의 4U 범용 GPU 액체 냉각 시스템에 통합되어 있습니다. ❄️

이러한 서버는 각각 8개의 서버를 포함하는 랙으로 구성되어 랙당 총 64개의 GPU를 갖습니다. 1U 컬렉터는 각 HGX H100 사이에 끼워져 서버에 필요한 액체 냉각 기능을 제공합니다. 각 랙 하단에는 또 다른 4U Supermicro 장치가 있는데, 이번에는 중복 펌프 시스템과 랙 모니터링 시스템이 장착되어 있습니다. 🔍

xAI HGX H100 서버 랙의 4개 뱅크(각각 8개의 서버를 수용할 수 있음) (이미지 출처: ServeTheHome) xAI Colossus GPU 서버의 후면 액세스. 각 서버에는 9개의 이더넷 케이블이 나오며 각 서버에는 4개의 전원 공급 장치가 있습니다. 공급 및 액체 냉각 호스도 보입니다.(이미지 출처: ServeTheHome)

🖥️ 이 랙은 8개 그룹으로 구성되어 다이당 512개의 GPU를 수용할 수 있습니다. 각 서버에는 4개의 중복 전원 공급 장치가 장착되어 있습니다. GPU 랙 뒷면에는 3상 전원 공급 장치, 이더넷 스위치 및 모든 액체 냉각을 제공하는 랙 크기의 매니폴드가 있습니다. 💧

Colossus 클러스터에는 1,500개 이상의 GPU 랙이 있으며 거의 ​​200개의 랙 세트에 분산되어 있습니다. Nvidia CEO Jensen Huang에 따르면 이 200개 다이의 GPU는 단 3주 만에 완전히 설치되었습니다. 🚀

지속적으로 모델을 훈련하는 AI 슈퍼 클러스터에는 높은 대역폭이 필요하기 때문에 xAI는 네트워크 상호 연결성을 더욱 향상시켰습니다. 각 그래픽 카드에는 전용 400GbE NIC(네트워크 인터페이스 컨트롤러)가 있으며 서버당 추가 400Gb NIC가 있습니다. 🔗 이는 각 HGX H100 서버에 초당 3.6테라비트의 이더넷이 있다는 의미입니다. 인상적이죠? 그리고 그렇습니다. 전체 클러스터는 슈퍼컴퓨팅 공간에서 표준으로 사용되는 InfiniBand나 기타 이국적인 연결이 아닌 이더넷에서 실행됩니다. 🌐

xAI Colossus 클러스터를 자체적으로 연결하는 노란색 이더넷 케이블의 파도와 파도를 내려다보는 장면입니다. 지나치게 넓은 케이블이 여러 겹으로 천장에 내장되어 있습니다.(이미지 출처: ServeTheHome)Supermicro의 스토리지 서버와 똑같이 생긴 xAI의 Colossus CPU 컴퓨팅 서버도 이 사이트에서 널리 사용되고 있습니다.(이미지 출처: ServeTheHome)

물론, AI 모델을 교육하는 Grok 3 챗봇과 같은 슈퍼컴퓨터가 최고의 성능을 발휘하려면 GPU 이상의 것이 필요합니다. 🔥 Colossus의 스토리지 및 CPU 서버에 대한 세부 정보는 다소 제한되어 있지만 Patrick의 비디오와 블로그 게시물, 우리는 이러한 서버가 일반적으로 Supermicro 섀시에 있다는 것을 알고 있습니다. 🚀

x86 플랫폼 CPU가 탑재된 1U NVMe 포워드 서버가 내부에 사용되어 스토리지와 컴퓨팅 용량을 모두 제공하며 후면에는 수냉식 냉각 장치가 장착되어 있습니다. 💧 또한 외부에서는 매우 컴팩트한 Tesla Megapack 배터리 뱅크를 볼 수 있습니다. ⚡️

뱅크 간 대기 시간이 밀리초에 달하는 어레이의 시작-정지 기능은 기존 전력망이나 머스크의 디젤 발전기에 비해 너무 컸습니다. 이러한 이유로 여러 Tesla 메가팩(각각 3.9MWh 용량)이 전력망과 슈퍼컴퓨터 사이의 중간 에너지원으로 사용됩니다. 🖥️🔋 이는 중단을 피하면서 최적의 효율적인 작동을 보장합니다. 🚦✨

🌟 Colossus와 Musk의 안정적인 슈퍼컴퓨터 활용 🌟

La supercomputadora xAI Colossus es actualmente, según Nvidia, la supercomputadora de IA más grande del mundo. 🤯 Mientras que muchas de las supercomputadoras líderes del mundo son utilizadas en investigaciones por contratistas o académicos para estudiar patrones climáticos, enfermedades u otras tareas complejas, Colossus tiene la responsabilidad exclusiva de entrenar los diversos modelos de IA de X (anteriormente Twitter). Principalmente, Grok 3, el chatbot «anti-despertar» de Elon que está disponible solo para suscriptores de X Premium. 🤖

Además, se informó a ServeTheHome que Colossus está entrenando modelos de IA «del futuro»; modelos cuyos usos y capacidades supuestamente están más allá de las capacidades actuales de la IA. 🚀 La primera fase de construcción de Colossus está completa y el clúster está completamente operativo, pero aún no está todo terminado. La supercomputadora de Memphis pronto se actualizará para duplicar su capacidad de GPU, con 50.000 GPU H100 adicionales y 50.000 GPU H200 de próxima generación. 🔥

이 업그레이드는 또한 전력 소비량을 두 배 이상 증가시킬 것입니다. 이는 머스크가 7월에 현장에 추가한 14개의 디젤 발전기를 처리하기에는 이미 너무 많은 양입니다. ⚡ 비록 Colossus 내에서 300,000개의 H200을 제공하겠다는 Musk의 약속보다 낮지만 이는 업데이트 3단계의 일부일 수 있습니다. 🔋

Por otro lado, la supercomputadora Cortex de 50.000 GPU en la planta de Tesla «Giga Texas» también pertenece a una empresa de Musk. Cortex se dedica a entrenar la tecnología de inteligencia artificial autónoma de Tesla a través de la transmisión de cámaras y la detección de imágenes, así como los robots autónomos de Tesla y otros proyectos de inteligencia artificial. 🤖🚗

또한 Tesla는 곧 뉴욕주 버팔로에 5억 달러 규모의 프로젝트인 Dojo 슈퍼컴퓨터 건설을 보게 될 것입니다. 💸 한편 Baidu CEO Robin Li와 같은 업계 투기꾼들은 거품이 꺼지면 AI 회사의 99%가 무너질 수 있다고 예측합니다. 머스크의 AI에 대한 기록적인 투자가 역효과를 낳을지, 아니면 성과를 거둘지는 아직 알 수 없습니다. ⏳

5 2 투표
기사 평가
구독하다
통지하다
손님

0 댓글
가장 오래된
최신 최다 투표
온라인 댓글
모든 댓글 보기