본문 바로가기
IT뉴스

엔비디아(Nvidia)와 네트워크 벤더간 AI 네트워킹 협력 강화

by romydady 2024. 6. 6.

엔비디아와 네트워크 벤더간 AI 네트워킹 협력 강화

시스코와 엔비디아 협력 강화

시스코는 이번 Cisco Live 2024에서 엔비디아(Nvidia)와 공동 개발한 Nexus HyperFabric AI 클러스터 솔루션을 소개했습니다. 이 솔루션은 기업이 이더넷 네트워크를 사용하여 AI 인프라의 배포와 관리를 간소화하는 것을 목표로 합니다.

Nvidia + Cisco

Nexus HyperFabric의 주요 특징

  • 단일 플랫폼: AI 포드와 데이터 센터 워크로드를 설계, 배포, 모니터링 및 보장할 수 있는 단일 플랫폼을 제공합니다. 
  • AI 네이티브 연결성: AI 클러스터를 단일 클릭으로 배포할 수 있는 AI 네이티브 연결성 솔루션을 제공합니다. 
  • NVIDIA 기술 통합: NVIDIA Tensor Core GPU, NVIDIA BlueField-3 SuperNIC 및 DPU를 통합하여 시스템 성능을 향상시킵니다. 

Nexus HyperFabric
Nexus HyperFabric

기존 AI 클러스터 솔루션과의 차별점

  • 기업 친화적: 하이퍼스케일러와 달리 기업과 서비스 제공업체는 일반적으로 사전 학습된 모델을 사용하거나 기존 모델을 미세 조정하는 데 초점을 맞추고 있습니다. 
  • 이더넷 인프라 활용: 많은 기업이 이더넷 인프라에 익숙하므로, Nexus HyperFabric 솔루션은 이러한 기업이 익숙한 이더넷 시스템을 사용하여 제너레이티브 AI 채택에 참여할 수 있도록 지원합니다. 

Nexus HyperFabirc AI Cluster

시스코의 AI 및 네트워킹 전략

시스코는 AI 기술과 네트워킹 전문성을 결합하여 기업이 AI 인프라를 보다 쉽게 구축하고 관리할 수 있도록 지원하고 있습니다. Nexus HyperFabric 솔루션은 이러한 노력의 일환으로, 기업이 익숙한 이더넷 인프라를 활용하여 제너레이티브 AI 기술을 도입할 수 있도록 돕습니다. Cisco Nexus HyperFabric 솔루션은 AI 인프라 배포와 관리를 간소화하고 기업이 제너레이티브 AI 기술을 보다 쉽게 활용할 수 있도록 지원하는 것을 목표로 합니다. 사용자 여러분의 추가 질문이 있다면 언제든 말씀해 주세요!

Ethernet 네트워킹과 AI의 관계

  • 이더넷은 기업 네트워킹의 주요 백본으로 널리 사용되어 왔습니다. 이는 이더넷의 광범위한 채택과 비용 효율성 때문입니다.
  • 제너레이티브 AI 시대에 InfiniBand가 고처리량 저지연 패브릭으로 부상했지만, 이더넷은 여전히 대부분의 데이터 센터에서 기본 네트워킹 선택이 되고 있습니다.

NVIDIA CEO 제이슨 황은 "모든 데이터 센터가 InfiniBand를 처리할 수 있는 것은 아니다. 이미 이더넷 생태계에 너무 오래 투자했기 때문"이라고 강조했습니다.

NVIDIA와 시스코의 이더넷 기반 AI 솔루션

  • NVIDIA는 이러한 수요에 대응하기 위해 Spectrum-X 이더넷 플랫폼을 개발했습니다.
  • 마찬가지로 Cisco는 Nexus HyperFabric 솔루션을 통해 고객의 기존 이더넷 네트워크와 원활하게 통합되도록 했습니다.
  • Cisco의 Murali Gandluru 제품 관리 부사장은 "이러한 기업들은 우리에게 와서 '우리는 이더넷 인프라가 있고, 이더넷에 익숙합니다. 이더넷의 현대적인 운영 모델에 익숙합니다'라고 말한다"고 언급했습니다.

시스코와 NVIDIA의 협력

  • Cisco와 NVIDIA의 협력은 단순히 NVIDIA GPU와 NIC를 기존 이더넷 패브릭에 연결하는 것 이상의 의미가 있습니다.
  • Cisco의 Kevin Wollenweber 선임 부사장은 "이는 새로운 운영 모델, 즉 이러한 기술의 배포를 어떻게 간소화하고 데이터 과학자들이 AI 워크로드 실행과 패브릭 전반의 효율성에 집중할 수 있게 할 것인가"라고 설명했습니다.

시스코와 NVIDIA는 기업이 익숙한 이더넷 인프라를 활용하여 제너레이티브 AI 기술을 도입할 수 있도록 지원하고 있습니다. 이를 위해 Nexus HyperFabric과 Spectrum-X와 같은 솔루션을 개발하고 있으며, 이를 통해 AI 인프라 배포와 관리를 간소화하고자 합니다. 

시스코 Nexus HyperFabric AI 클러스터

  • Cisco는 NVIDIA와 협력하여 Nexus HyperFabric AI 클러스터 솔루션을 발표했습니다.
  • 이 솔루션은 기업 고객이 제너레이티브 AI 애플리케이션을 쉽게 배포하고 확장할 수 있도록 지원합니다.
  • Nexus HyperFabric AI 클러스터의 주요 구성 요소는 다음과 같습니다:

클라우드 관리 기능

  • Cisco 클라우드 관리 기능을 통해 전체 워크플로우 단계에서 IT 운영을 간소화합니다.

고성능 네트워킹 하드웨어

  • Cisco 6000 시리즈 스위치를 통해 400G 및 800G 이더넷 패브릭 성능을 제공합니다.
  • Cisco Optics 제품군의 QSFP-DD 모듈을 통해 고객 선택권과 높은 밀도를 제공합니다.

NVIDIA AI 소프트웨어 및 하드웨어

  • NVIDIA AI Enterprise 소프트웨어로 제너레이티브 AI 워크로드의 개발 및 배포를 간소화합니다.
  • NVIDIA NIM 추론 마이크로서비스로 기반 모델의 배포를 가속화하고 데이터 보안을 보장합니다.
  • NVIDIA Tensor Core GPU, H200 NVL 모델로 제너레이티브 AI 워크로드를 가속화합니다.
  • NVIDIA BlueField-3 DPU 프로세서와 BlueField-3 SuperNIC으로 AI 컴퓨팅, 네트워킹, 데이터 액세스, 보안 워크로드를 가속화합니다.

통합 데이터 플랫폼

  • VAST Data Platform은 통합 스토리지, 데이터베이스, AI를 위한 데이터 기반 기능 엔진을 제공합니다.

시스코는 이 솔루션을 올해 2024년 하반기 말에 출시할 예정이며, 2025년 초 대규모 배포를 목표로 하고 있습니다.

반응형

아리스타와 엔비디아 협력 강화

아리스타와 NVIDIA의 AI 데이터 센터 솔루션 파트너십

Arista Networks는 NVIDIA와의 파트너십을 통해 AI 데이터 센터 기술 시연을 발표했습니다. 이 이니셔티브를 통해 고객은 네트워크, NIC, 서버 등 핵심 구성 요소에 걸쳐 AI 클러스터를 균일하게 구성, 관리 및 모니터링할 수 있습니다. 이를 통해 작업 완료 시간이 단축된 최적화된 생성형 AI 네트워크를 구축할 수 있습니다.

AI 네트워킹과 AI 컴퓨팅의 통합

  • Arista는 NVIDIA와의 협력을 통해 다벤더 간 상호운용 가능한 생태계를 구축하여 AI 네트워킹과 AI 컴퓨팅을 통합 제어할 수 있게 되었습니다.

네트워크가 AI 성능의 핵심

  • AI 워크로드의 경우 컴퓨팅 성능은 네트워크가 허용하는 수준에 의해 제한됩니다.
  • Arista는 고객과의 협업을 통해 네트워크 설계가 AI 성능의 핵심임을 깨달았습니다.
  • 컴퓨팅에 투자했지만 네트워크가 적절히 설계되지 않으면 기대한 성과를 얻을 수 없습니다.

아리스타, AI 분야의 차세대 리더

  • Arista는 고빈도 거래와 하이퍼스케일러 분야에서 두각을 나타냈으며, 이제 AI 분야에 주력하고 있습니다.
  • 애널리스트는 아리스타를 'AI 혁신기업'으로 지목하고 CEO와의 인터뷰를 통해 이 기회에 대해 논의했습니다.

AI 클러스터의 통합 관리 필요성

  • AI 클러스터와 대규모 언어 모델(LLM)이 지속적으로 확장됨에 따라 구성 요소의 복잡성과 수가 증가하고 있습니다.
  • 네트워크의 일관성을 위해서는 GPU, NIC, 스위치, 광학 장치, 케이블 등 다양한 요소를 통합해야 합니다.
  • 통합 후에는 AI 서버의 NIC, GPU와 AI 네트워크 스위치 간에 일관된 제어가 필요합니다.
  • 이러한 요소들은 AI 작업 완료를 위해 서로 의존하지만, 독립적으로 작동하여 구성 오류나 정렬 문제가 발생할 수 있습니다.

NIC와 스위치 네트워크 간 정렬 필요

  • NIC와 스위치 네트워크 간 정렬이 부족하면 네트워크 문제 진단에 시간이 소요되어 작업 완료 시간이 지연될 수 있습니다.

대규모 AI 클러스터의 통합 관리 및 모니터링

  • 대규모 AI 클러스터에서는 패킷 손실, GPU 저활용 등을 방지하기 위해 통합된 혼잡 관리가 필요합니다.
  • 또한 컴퓨팅 및 네트워크 리소스를 동시에 최적화하기 위한 통합 관리 및 모니터링이 중요합니다.

arista AI networking cluster
Arista AI netwoking cluster

Arista의 EOS 기반 에이전트를 통한 AI 클러스터 최적화

  • Arista의 EOS(Extensible Operating System) 기반 에이전트는 네트워크와 호스트 간 통신 및 조정을 통해 AI 클러스터를 최적화하는 핵심 솔루션입니다.
  • Arista 스위치의 EOS는 원격 AI 에이전트를 통해 직접 연결된 NIC와 서버로 기능을 확장할 수 있습니다.
  • 이를 통해 AI 데이터 센터 전반에 걸쳐 통합된 제어 및 가시성을 제공합니다.

NVIDIA BlueField-3 DPU(SuperNIC)를 활용한 통합 관리

  • 원격 AI 에이전트는 NVIDIA BlueField-3 DPU(SuperNIC)에 호스팅되어, 네트워크 스위치의 EOS에 네트워크 구성, 모니터링, 문제 해결 기능을 제공합니다.
  • 이를 통해 AI 클러스터에 대한 일관된 엔드-투-엔드 네트워크 구성 및 QoS(Quality of Service)를 실현할 수 있습니다.

AI를 통한 네트워킹 최적화

  • Arista는 네트워크 텔레메트리 데이터와 AI를 결합하여 네트워킹을 더욱 가치 있게 만들 수 있습니다.
  • 모든 네트워킹 벤더들이 AI를 활용해 네트워크 인프라를 관리하고 있지만, Arista는 AI를 위한 네트워킹 분야에서도 선도적인 역할을 하고 있습니다.
  • Arista와 NVIDIA의 파트너십은 NVIDIA가 이더넷 벤더들을 제압하려 한다는 우려를 해소할 수 있습니다. 고객들은 다양한 선택지를 원하며, 이 파트너십이 이를 해결할 수 있습니다.

Arista의 EOS 기반 에이전트와 NVIDIA BlueField-3 DPU를 활용한 솔루션은 AI 클러스터의 통합 관리와 최적화를 가능하게 합니다. 또한 Arista는 네트워크 텔레메트리와 AI를 결합하여 네트워킹 분야에서도 혁신을 이루고 있습니다.

 

 

 

반응형

댓글