xAI Colossus의 비밀: 100,000개의 GPU

🌟 xAI Colossus의 비밀: Elon Musk의 100,000 GPU AI 클러스터 발견 🚀

🌟 xAI Colossus의 비밀: Elon Musk의 100,000 GPU AI 클러스터 발견 🚀

인공 지능과 최첨단 기술에 열정이 있다면 Elon Musk가 AI 클러스터로 무엇을 하고 있는지 알아보지 않을 수 없습니다. xAI Colossus로 알려진 이 거대 기술 기업은 기술 세계에 큰 반향을 불러일으키고 있습니다. 100,000 GPU의 놀라운 처리 능력을 갖춘 이 클러스터는 현대 엔지니어링의 진정한 경이로움입니다. 🤖💻

이 기사에서 우리는 이 놀라운 혁신 뒤에 숨은 비밀을 밝혀낼 것입니다. 기술적. xAI Colossus가 어떻게 산업 분야에 혁명을 일으키고 있는지 살펴보겠습니다. 인공지능 그리고 이것이 미래에 무엇을 의미하는지. 🌟 가장 위대한 업적 중 하나의 심장으로 향하는 매혹적인 여행을 준비하세요 기술적 우리 시대의. 🚀 놓치지 마세요!

Elon Musk의 값비싼 새 프로젝트인 xAI Colossus AI 슈퍼컴퓨터가 처음으로 자세히 설명되었습니다. Youtuber ServeTheHome은 100,000 Beast 내부의 Supermicro 서버에 액세스했습니다. GPU, 이 슈퍼컴퓨터의 다양한 측면을 보여줍니다. Musk의 xAI Colossus 슈퍼 클러스터는 122일이 소요된 조립 이후 거의 두 달 동안 온라인 상태가 되었습니다. 🔧💡

세계 최대 AI 슈퍼 클러스터 xAI Colossus 내부 - YouTube

100,000개의 GPU 클러스터 안에는 무엇이 들어있나요? 🤔

ServeTheHome의 Patrick은 카메라를 들고 서버의 여러 부분을 둘러보며 서버 운영에 대한 파노라마 뷰를 제공합니다. 비록 일부 세부 전력 소비, 폭탄의 크기 등 슈퍼컴퓨터에 대한 구체적인 내용은 기밀 유지 계약으로 인해 공개할 수 없었지만, xAI는 공개 전에 동영상의 일부를 흐리게 처리하고 검열했습니다. 🎥

그럼에도 불구하고 Supermicro의 GPU 서버와 같은 가장 중요한 것들은 영상에 거의 그대로 남아 있었습니다. 이러한 GPU 서버는 엔비디아 HGX H100은 각각 8개의 H100 GPU를 갖춘 강력한 서버 솔루션입니다. 🚀 HGX H100 플랫폼은 4U Universal GPU Liquid 시스템에 통합되어 있습니다. 냉각 Supermicro에서 각 GPU에 대해 쉽게 핫스왑 가능한 액체 냉각을 제공합니다. ❄️

이러한 서버는 각각 8개의 서버를 포함하는 랙으로 구성되어 랙당 총 64개의 GPU를 갖습니다. 1U 컬렉터는 각 HGX H100 사이에 끼워져 서버에 필요한 액체 냉각 기능을 제공합니다. 각 랙 하단에는 또 다른 4U Supermicro 장치가 있는데, 이번에는 중복 펌프 시스템과 랙 모니터링 시스템이 장착되어 있습니다. 🔍

xAI HGX H100 서버 랙의 4개 뱅크(각각 8개의 서버를 수용할 수 있음) (이미지 출처: ServeTheHome) xAI Colossus GPU 서버의 후면 액세스. 각 서버에는 9개의 이더넷 케이블이 나오며 각 서버에는 4개의 전원 공급 장치가 있습니다. 공급 및 액체 냉각 호스도 보입니다.(이미지 출처: ServeTheHome)

🖥️ Estos bastidores están organizados en grupos de ocho, lo que permite tener 512 GPU por matriz. Cada servidor está equipado con cuatro fuentes de alimentación redundantes. En la parte posterior de los bastidores de GPU, se encuentran fuentes de alimentación trifásicas, conmutadores Ethernet y un colector del tamaño de un bastidor que proporciona toda la refrigeración líquida. 💧

Colossus 클러스터에는 1,500개 이상의 GPU 랙이 있으며 거의 200개의 랙 세트에 분산되어 있습니다. Jensen Huang CEO에 따르면 엔비디아, 이 200개 다이의 GPU는 단 3주 만에 완전히 설치되었습니다. 🚀

지속적으로 모델을 훈련하는 AI 슈퍼 클러스터에는 높은 대역폭이 필요하기 때문에 xAI는 네트워크 상호 연결성을 더욱 향상시켰습니다. 각 그래픽 카드 전용 400GbE NIC(네트워크 인터페이스 컨트롤러)와 서버당 추가 400Gb NIC가 있습니다. 🔗 이는 각 HGX H100 서버에 초당 3.6테라비트의 이더넷이 있다는 의미입니다. 인상적이죠? 그리고 그렇습니다. 전체 클러스터는 슈퍼컴퓨팅 공간에서 표준으로 사용되는 InfiniBand나 기타 이국적인 연결이 아닌 이더넷에서 실행됩니다. 🌐

xAI Colossus 클러스터를 자체적으로 연결하는 노란색 이더넷 케이블의 파도와 파도를 내려다보는 장면입니다. 지나치게 넓은 케이블이 여러 겹으로 천장에 내장되어 있습니다.(이미지 출처: ServeTheHome)Supermicro의 스토리지 서버와 똑같이 생긴 xAI의 Colossus CPU 컴퓨팅 서버도 이 사이트에서 널리 사용되고 있습니다.(이미지 출처: ServeTheHome)

물론, AI 모델을 교육하는 Grok 3 챗봇과 같은 슈퍼컴퓨터가 최고의 성능을 발휘하려면 GPU 이상의 것이 필요합니다. 🔥 Colossus의 스토리지 및 CPU 서버에 대한 세부 정보는 다소 제한되어 있지만 Patrick의 비디오와 블로그 게시물, 우리는 이러한 서버가 일반적으로 Supermicro 섀시에 있다는 것을 알고 있습니다. 🚀

x86 플랫폼 CPU를 탑재한 1U NVMe 포워드 서버가 내부에 사용되어 스토리지와 용량을 모두 제공합니다. 컴퓨팅, 후면에 액체 냉각 장치가 장착되어 있습니다. 💧 게다가 밖에서는 은행을 볼 수 있습니다. 배터리 매우 컴팩트한 Tesla Megapack. ⚡️

뱅크 간 대기 시간이 밀리초에 달하는 어레이의 시작-정지 기능은 기존 전력망이나 머스크의 디젤 발전기에 비해 너무 컸습니다. 이러한 이유로 여러 개의 Tesla Megapack(각각 3.9MWh 용량)이 중간 에너지원으로 사용됩니다. 그리드 전기와 슈퍼컴퓨터. 🖥️🔋 이는 중단을 피하면서 최적의 효율적인 작동을 보장합니다. 🚦✨

🌟 Colossus와 Musk의 안정적인 슈퍼컴퓨터 활용 🌟

Nvidia에 따르면 xAI Colossus 슈퍼컴퓨터는 현재 세계에서 가장 큰 AI 슈퍼컴퓨터입니다. 🤯 세계 최고의 슈퍼컴퓨터 중 다수가 날씨 패턴, 질병 또는 기타 복잡한 작업을 연구하기 위해 계약자나 학자의 연구에 사용되는 반면, Colossus는 X(이전 Twitter)의 다양한 AI 모델을 훈련하는 전적인 책임을 지고 있습니다. 주로 X Premium 가입자에게만 제공되는 Elon의 "깨우기 방지" 챗봇인 Grok 3가 있습니다. 🤖

또한 ServeTheHome은 Colossus가 "미래의" AI 모델을 훈련하고 있다는 소식을 들었습니다. AI의 현재 능력을 넘어서는 것으로 추정되는 용도와 능력을 갖춘 모델. 🚀 Colossus 건설의 첫 번째 단계가 완료되고 클러스터가 완전히 작동하지만 아직 모든 것이 완료된 것은 아닙니다. 멤피스 슈퍼컴퓨터는 곧 업데이트할 예정 H100 GPU 50,000개와 차세대 H200 GPU 50,000개를 추가해 GPU 용량을 두 배로 늘렸습니다. 🔥

이것 업데이트 또한 에너지 소비량도 두 배 이상 증가하게 되는데, 이는 머스크가 7월 현장에 추가한 14개의 디젤 발전기가 처리하기에는 이미 너무 많은 양입니다. ⚡ 비록 머스크가 Colossus 내에서 300,000 H200을 약속한 수준에는 미치지 못하지만, 이는 3단계의 일부일 수 있습니다. 업데이트. 🔋

한편, Tesla의 'Giga Texas' 공장에 있는 50,000 GPU Cortex 슈퍼컴퓨터도 Musk 회사 소유입니다. Cortex는 교육에 전념하고 있습니다. 기술 카메라 스트리밍, 이미지 감지를 통한 Tesla의 자율 AI 기술은 물론 Tesla의 자율 로봇 및 기타 AI 프로젝트. 🤖🚗

또한 Tesla는 곧 뉴욕주 버팔로에 5억 달러 규모의 프로젝트인 Dojo 슈퍼컴퓨터 건설을 보게 될 것입니다. 💸 한편 Baidu CEO Robin Li와 같은 업계 투기꾼들은 거품이 꺼지면 AI 회사의 99%가 무너질 수 있다고 예측합니다. 머스크의 AI에 대한 기록적인 투자가 역효과를 낳을지, 아니면 성과를 거둘지는 아직 알 수 없습니다. ⏳

5 3 투표
기사 평가
구독하다
통지하다
손님

0 댓글
가장 오래된
최신 최다 투표
온라인 댓글
모든 댓글 보기