본문 바로가기
IT뉴스

100만 GPU 시대의 네트워킹 혁명: AMD가 엔비디아에 도전하는 시스템 사고법

by romydady 2025. 6. 2.
반응형

 

인터넷 초창기부터 현재까지 네트워킹 산업의 변화를 지켜본 베테랑 전문가 소니 지안다니(Soni Jiandani)가 말하는 새로운 혁명이 시작되고 있습니다.

이번엔 바로 100만 GPU 클러스터를 지원하는 네트워킹 시스템의 혁명입니다!

AMD의 네트워킹 도전: 펜산도에서 시작된 여정

펜산도 시스템즈(Pensando Systems)의 탄생과 AMD 합류

소니 지안다니가 2017년 공동 창립한 펜산도 시스템즈는 DPU(Data Processing Unit)를 개발하는 회사입니다.

DPU란? 📡 DPU는 SmartNIC이라고도 불리며, 기존에 CPU와 GPU가 처리하던 네트워킹 작업을 전담하는 전용 칩입니다. 이렇게 하면 CPU와 GPU는 본연의 계산 작업에만 집중할 수 있어 전체 시스템 성능이 향상됩니다. 마치 요리사가 주방 청소까지 해야 했던 상황에서 전문 청소 담당자를 고용한 것과 같은 효과죠!

엔비디아가 멜라녹스(Mellanox)를 인수한 후, AMD는 2022년 펜산도를 19억 달러에 인수했습니다.

이는 ChatGPT 열풍이 일어나기 1년 전의 일로, 당시로서는 상당히 선견지명이 있는 투자였습니다.

<소니 지안다니>

"시스템 사고"의 중요성

지안다니가 강조하는 핵심 개념은 바로 "시스템 사고(System Thinking)"입니다.

"우리는 단순히 소프트웨어, 디바이스, 컴포넌트만 생각하지 않습니다. 시스템 전체를 생각합니다."

시스템 사고란? 🧠 개별 부품의 성능만 보는 것이 아니라, 전체 시스템이 어떻게 상호작용하고 협력하는지를 보는 관점입니다. 마치 축구팀에서 개별 선수의 실력도 중요하지만, 선수들 간의 호흡과 전술이 더 중요한 것과 같습니다!

분산 시스템인 네트워크를 구축할 때는 다음과 같은 질문들을 고려해야 합니다:

  • 서로 어떻게 통신할 것인가?
  • 장애가 발생했을 때 어떻게 대처할 것인가?
  • 어떻게 복구할 것인가?
  • 서비스 가능성은 어떻게 보장할 것인가?
  • 관찰 가능성(Observability)은 어떻게 확보할 것인가?

🎯 이더넷 vs 인피니밴드: 표준의 전쟁

엔비디아의 인피니밴드 vs AMD의 이더넷

엔비디아는 주로 인피니밴드(InfiniBand)를 선호하는 반면, AMD는 이더넷(Ethernet)에 올인했습니다.

인피니밴드란? ⚡ 고성능 컴퓨팅을 위한 네트워킹 표준으로, 매우 빠른 속도와 낮은 지연시간을 제공합니다. 하지만 독점적이고 비싸다는 단점이 있죠. 마치 고급 스포츠카 같은 존재입니다!

이더넷이란? 🌐 우리가 일상에서 사용하는 인터넷의 기본 네트워킹 표준입니다. 범용성이 높고 비용 효율적이며 확장성이 뛰어납니다. 실용적인 SUV 같은 존재라고 할 수 있죠!

지안다니는 "이더넷이 확장 가능한 솔루션임이 입증되었다"며, "일부 고객들이 확장성 문제로 독점 기술을 포기하고 있다"고 설명합니다.

울트라 이더넷 컨소시엄(UEC)의 역할

AMD는 울트라 이더넷 컨소시엄(Ultra Ethernet Consortium, UEC)의 가장 적극적인 멤버 중 하나입니다.

UEC란? 🤝 AI 워크로드에 최적화된 이더넷 표준을 개발하는 업계 컨소시엄입니다. 마치 스마트폰 업계의 표준을 정하는 협의체 같은 역할을 합니다!

AMD는 이미 UEC 호환 폴라라 400 AI NIC를 공개했습니다. 흥미롭게도 엔비디아도 조용히 UEC에 가입했지만, 공개적으로 발표하지는 않았습니다.

💡 100만 GPU 시대의 도래

상상을 초월하는 규모

"우리는 10만 GPU 규모의 클러스터가 잘 문서화되어 있다는 것을 알고 있습니다. 그리고 일부 대형 하이퍼스케일러들과 대화할 때, 대규모 언어 모델의 성장을 바탕으로 100만 GPU까지 확장하고 싶다는 이야기를 듣고 있습니다."

하이퍼스케일러란? 🏢 구글, 아마존, 마이크로소프트 같은 대규모 클라우드 서비스 제공업체를 말합니다. 이들은 전 세계에 거대한 데이터센터를 운영하며, 수십만 대의 서버를 관리합니다!

이런 급속한 성장을 달성하려면 한 회사의 비전만으로는 불가능하고, 생태계 차원에서 접근해야 한다고 지안다니는 강조합니다.

마이크로소프트의 딜레마

흥미로운 점은 마이크로소프트의 상황입니다. 마이크로소프트는 자체적으로 FPGA 기반 SmartNIC을 개발해왔지만, 여전히 펜산도의 제품을 사용하고 있습니다.

FPGA란? 🔧 Field Programmable Gate Array의 줄임말로, 사용자가 필요에 따라 회로를 재구성할 수 있는 반도체입니다. 레고 블록처럼 필요에 따라 다양한 모양으로 조립할 수 있지만, 전용 칩만큼 빠르지는 않다는 한계가 있습니다!

탄 에디(Eddie Tan)는 "FPGA는 유연성이 떨어지고 속도가 느리며, 대규모 동시 서비스를 지원하는 데 한계가 있다"고 설명합니다. 하지만 최근 마이크로소프트가 펀지블(Fungible) 인수 후 자체 DPU 배포를 발표하면서 상황이 복잡해졌습니다.

🔮 미래를 위한 준비: 새로운 제품들

폴라라 400과 살리나 400

AMD의 새로운 제품들은 생성형 AI 이후 시대를 위해 설계되었습니다:

  • 폴라라 400: 백엔드 네트워킹용 AI NIC
  • 살리나 400: 프론트엔드 네트워킹용 DPU

NIC vs DPU 차이점 💻

  • NIC(Network Interface Card): 네트워크 연결을 위한 카드, 주로 데이터 전송에 집중
  • DPU(Data Processing Unit): 네트워킹뿐만 아니라 데이터 처리까지 담당하는 더 똑똑한 칩

기존 제품인 엘바(Elba)는 2022년부터 오라클 클라우드, 마이크로소프트 애저, IBM 클라우드에서 운영되고 있으며, 일부는 2027년까지 사용될 예정입니다.

<펜산도 폴라라 400>

🏗️ ZT 시스템즈 인수: 시스템 통합의 완성

AMD는 2024년 8월 ZT 시스템즈를 49억 달러에 인수한다고 발표했으며, 올해 3월 인수를 완료했습니다.

ZT 시스템즈란? 🏭 하이퍼스케일 서버 제조업체로, 수천 명의 직원을 보유하고 있습니다. AMD는 이들의 제조 자산은 분사하고, 시스템 설계 능력에만 집중할 계획입니다!

"ZT 시스템즈는 우리가 랙 수준에서 시스템을 구축하는 데 도움을 줄 것입니다. GPU 시스템, 네트워킹 자산, CPU 자산, 액체 냉각 및 공기 냉각 시스템 전체를 통합한 참조 설계 아키텍처를 만드는 팀입니다."

🎯 생태계의 힘

지안다니가 전하는 핵심 메시지는 명확합니다: "어떤 한 회사도 혼자서는 이 일을 해낼 수 없습니다."

AI 모델이 점점 커지면서 더 균형 잡힌 시스템을 구축하는 능력이 매우 중요해졌습니다. 이를 위해서는 파트너십과 생태계, 그리고 업계 전체의 긴밀한 협력 관계가 핵심입니다.

100만 GPU 시대는 단순히 더 많은 칩을 연결하는 것이 아닙니다. 전체 시스템이 조화롭게 작동하도록 하는 시스템 사고가 필요한 시대입니다. AMD가 엔비디아의 독주 체제에 도전하면서 더욱 개방적이고 유연한 생태계를 만들어가는 과정은 앞으로도 주목할 만한 스토리가 될 것 같습니다!

반응형

댓글