IT정보

(엔비디아) AI-RAN이 라이브로 전환되고 통신사를 위한 새로운 AI 기회가 열립니다. (번역)

break; 2024. 11. 13. 11:41
반응형

AI는 새로운 방식으로 산업, 기업, 소비자 경험을 변화시키고 있습니다. 생성 AI 모델은 추론으로 이동하고, 에이전트 AI는 새로운 결과 지향적 워크플로를 가능하게 하고, 물리적 AI 는 카메라, 로봇, 드론, 자동차와 같은 엔드포인트가 실시간으로 의사 결정을 내리고 상호 작용할 수 있도록 합니다.

이 모든 사용 사례를 연결하는 공통적인 요소는 광범위하고 안정적이며 안전하고 초고속 연결에 대한 필요성입니다.

통신 네트워크는 이러한 새로운 종류의 AI 트래픽에 대비해야 합니다. 이러한 트래픽은 프런트홀 무선 접속 네트워크를 통해 직접 들어오거나, 기업 애플리케이션에서 생성된 완전히 독립적인 AI 추론 트래픽으로 퍼블릭 또는 프라이빗 클라우드에서 백홀될 수 있습니다. 

로컬 무선 인프라는 AI 추론을 처리하기에 이상적인 장소를 제공합니다. 여기서 통신사 네트워크에 대한 새로운 접근 방식인 AI 무선 액세스 네트워크( AI-RAN )가 두드러집니다. 

기존 CPU 또는 ASIC 기반 RAN 시스템은 RAN 사용에만 설계되었으며 오늘날 AI 트래픽을 처리할 수 없습니다. AI-RAN은 무선 및 AI 워크로드를 동시에 실행할 수 있는 공통 GPU 기반 인프라를 지원하여 네트워크를 단일 목적 인프라에서 다목적 인프라로 전환하고 사이트를 비용 센터에서 수익원으로 전환합니다.

적절한 종류의 기술에 대한 전략적 투자를 통해 통신사는 산업, 소비자 및 기업 전반에 걸쳐 AI의 생성, 배포 및 소비를 용이하게 하는 AI 그리드가 되기 위해 도약할 수 있습니다. 이 순간은 통신사가 중앙 및 분산 인프라를 재활용하여 AI 교육(생성) 및 AI 추론(배포)을 위한 패브릭을 구축할 수 있는 엄청난 기회를 제공합니다. 

SoftBank와 NVIDIA, AI-RAN 상용화를 앞당기다 

SoftBank는 NVIDIA 가속 하드웨어와 NVIDIA Aerial 소프트웨어를 기술적 기반으로 활용하여  일본 가나가와현 후지사와시에서 성공적인 야외 현장 시험을 실시하여 AI-RAN 비전을 현실로 만들었습니다 .

이 성과는 AI-RAN 상용화를 위한 여러 단계의 진전을 나타내며 기술 실행 가능성, 성능 및 수익화에 대한 산업 요구 사항을 해결하는 실제 증거 포인트를 제공합니다.

  • NVIDIA 가속 컴퓨팅 플랫폼에서 실행되는 세계 최초의 야외 5G AI-RAN 현장 시험. 이는 5G 코어와 통합된 풀스택 가상 5G RAN 소프트웨어 기반의 엔드투엔드 솔루션입니다.
  • 통신사 등급의 가상 RAN 성능이 달성되었습니다.
  • AI 및 RAN 다중 테넌시 및 오케스트레이션이 달성되었습니다.
  • 기존 벤치마크와 비교해서 에너지 효율성과 경제적 이익이 검증되었습니다. 
  • AI-RAN 인프라에 통합된 AI 마켓플레이스의 잠재력을 극대화하는 새로운 솔루션입니다.
  • AI-RAN 네트워크에서 실행되는 실제 AI 애플리케이션을 선보입니다.

무엇보다도 소프트뱅크는 2026년에 자체 AI-RAN 제품을 상업적으로 출시해 전 세계에 배포할 계획입니다. 

SoftBank는 다른 모바일 네트워크 사업자가 지금 AI-RAN 여정을 시작할 수 있도록 돕기 위해 AI-RAN을 빠르고 쉽게 시험하는 데 필요한 하드웨어 및 소프트웨어 요소로 구성된 참조 키트를 제공할 계획입니다.

End-to-end AI-RAN 솔루션 및 현장 결과

SoftBank는 NVIDIA와 생태계 파트너의 하드웨어 및 소프트웨어 구성 요소를 통합하고 캐리어 등급 요구 사항을 충족하도록 강화하여 AI-RAN 솔루션을 개발했습니다. 이 솔루션을 함께 사용하면 NVIDIA GH200(CPU+GPU), NVIDIA Bluefield-3(NIC/DPU) 및 프런트홀 및 백홀 네트워킹을 위한 Spectrum-X에서 실행되는 100% 소프트웨어 정의형 전체 5G vRAN 스택을 사용할 수 있습니다. 20개의 무선 장치와 5G 코어 네트워크와 통합되고 100개의 모바일 UE를 연결합니다. 

핵심 소프트웨어 스택에는 다음 구성 요소가 포함됩니다.

  • SoftBank는 NVIDIA Aerial CUDA-Accelerated-RAN 라이브러리를 사용하여 채널 매핑, 채널 추정, 변조 및 전방 오류 수정과 같은 5G RAN Layer 1 기능을 개발 및 최적화했습니다.
  • 2계층 기능을 위한 Fujitsu 소프트웨어
  • 컨테이너 가상화 계층으로서 Red Hat의 OpenShift Container Platform(OCP)은 다양한 유형의 애플리케이션이 동일한 기본 GPU 컴퓨팅 인프라에서 실행될 수 있도록 지원합니다.
  • 수요와 사용 가능한 용량에 따라 RAN 및 AI 워크로드의 원활한 프로비저닝을 가능하게 하는 SoftBank에서 개발한 E2E AI 및 RAN 오케스트레이터

기본 하드웨어는 분산형에서 중앙 집중형 RAN 시나리오까지 다양한 구성으로 사용할 수 있는 NVIDIA GH200 Grace Hopper Superchip 입니다 . 이 구현은 단일 랙에서 여러 GH200 서버를 사용하여 통합형 RAN 시나리오를 위해 AI 및 RAN 워크로드를 동시에 처리합니다. 이는 여러 기존 RAN 기지국을 배포하는 것과 비슷합니다.

이 파일럿에서 각 GH200 서버는 RAN 전용 모드에서 사용할 때 100MHz 대역폭을 사용하여 20개의 5G 셀을 처리할 수 있었습니다. 각 셀에 대해 이상적인 조건에서 1.3Gbps의 피크 다운링크 성능이 달성되었고, 실외 배포에서 캐리어 등급 가용성으로 816Mbps가 시연되었습니다. 

AI-RAN 멀티 테넌시 달성

AI-RAN 기술의 첫 번째 원칙 중 하나는 RAN 및 AI 워크로드를 동시에 실행하면서도 캐리어급 성능을 저하시키지 않는 것입니다. 이 멀티 테넌시는 시간 또는 공간 중 하나일 수 있습니다. 즉, 리소스를 하루 중 시간이나 컴퓨팅 비율에 따라 분할합니다. 이는 또한 사용 가능한 용량에 따라 워크로드를 원활하게 프로비저닝, 디프로비저닝 또는 전환할 수 있는 오케스트레이터가 필요하다는 것을 의미합니다.

후지사와시 시험에서는 RAN과 AI 워크로드 간에 리소스를 정적으로 할당하여 GH200에서 동시 AI 및 RAN 처리를 성공적으로 시연했습니다(그림 1).  

그림 1. AI 및 RAN 동시성 및 전체 GPU 활용도

각 NVIDIA GH200 서버는 여러 MIG(Multi-Instance GPU)를 구성하여 단일 GPU를 여러 개의 분리된 GPU 인스턴스로 나눌 수 있습니다. 각 인스턴스에는 메모리, 캐시, 컴퓨팅 코어와 같은 자체 전용 리소스가 있으며 독립적으로 작동할 수 있습니다.

SoftBank 오케스트레이터는 전체 GPU 또는 GPU 내의 일부 MIG를 지능적으로 할당하여 AI를 실행하고 일부는 RAN 워크로드를 실행하고 필요에 따라 동적으로 전환합니다. 또한 RAN 및 AI에 대한 특정 비율의 컴퓨팅을 정적으로 할당할 수도 있습니다(예: 수요 기반 할당 대신 RAN에 60%, AI에 40%). 

목표는 용량 활용도를 극대화하는 것입니다. AI-RAN을 사용하면 통신사는 일반적인 RAN 전용 네트워크의 33% 용량 활용도에 비해 거의 100% 활용도를 달성할 수 있습니다. 이는 동적 오케스트레이션 및 우선순위 정책 덕분에 최대 3배까지 증가하면서도 최대 RAN 부하에 대처할 수 있습니다.

AI-RAN 마켓플레이스 활성화

이제 분산형 AI-RAN 인프라에서 새로운 AI 컴퓨팅 용량을 사용할 수 있게 되면서, 이 AI 컴퓨팅 공급에 AI 수요를 어떻게 가져올 것인가라는 의문이 제기됩니다. 

이를 해결하기 위해 SoftBank는 NVIDIA AI Enterprise가 제공하는 서버리스 API를 사용하여 보안, 확장성 및 안정성을 갖춘 AI-RAN에서 AI 워크로드를 배포하고 관리했습니다. NVIDIA AI Enterprise 서버리스 API는 AI-RAN 인프라에서 호스팅되고 SoftBank E2E AI-RAN 오케스트레이터와 통합됩니다. 동일한 API를 실행하는 모든 퍼블릭 또는 프라이빗 클라우드에 연결하여 컴퓨팅이 가능할 때 외부 AI 추론 작업을 AI-RAN 서버로 전송합니다(그림 2). 

그림 2. SoftBank AI-RAN과 통합된 AI 마켓플레이스 솔루션

이 솔루션은 AI 마켓플레이스를 가능하게 하여 SoftBank가 로컬화되고 지연 시간이 짧으며 보안이 유지되는 추론 서비스를 제공하는 데 도움이 됩니다. 또한 통신사가 특히 외부 AI 추론 작업에 있어 AI 배포 그리드가 되는 데 있어 AI-RAN의 중요성을 보여주었고 새로운 수익 기회를 열었습니다.

AI-RAN 애플리케이션 시연

이 야외 실험에서는 SoftBank가 개발한 새로운 에지 AI 애플리케이션이 라이브 AI-RAN 네트워크를 통해 시연되었습니다.

  • 5G를 통한 자율주행차 원격 지원
  • 공장 멀티모달 AI 애플리케이션
  • 로봇공학 응용 프로그램

5G를 통한 자율주행차 원격 지원

자율 주행의 사회적 구현에 대한 핵심 요구 사항은 차량 안전과 운영 비용 절감입니다. 

후지사와 시의 시험에서 소프트뱅크는 자율 주행차를 시연하여 5G를 사용하여 전면 카메라 비디오를 AI-RAN 서버에 호스팅된 AI 기반 원격 지원 서비스에 전달했습니다. 멀티모달 AI 모델은 비디오 스트림을 분석하고 위험 평가를 수행했으며 5G를 통해 텍스트를 사용하여 자율 주행차에 권장 조치를 보냈습니다. 

이는 설명 가능한 AI의 한 예이기도 한데, 자율주행차의 모든 동작은 원격 지원을 위해 요약된 텍스트와 로깅을 통해 모니터링하고 설명할 수 있습니다. 

공장 멀티모달 AI 애플리케이션

이 사용 사례에서 비디오, 오디오, 센서 데이터를 포함한 멀티모달 입력은 5G를 사용하여 AI-RAN 서버로 스트리밍됩니다. AI-RAN 서버에서 호스팅되는 여러 LLM, VLM, 검색 증강 생성(RAG) 파이프라인 및 NVIDIA NIM 마이크로서비스를 사용하여 이러한 입력을 통합하고 5G를 사용하는 사용자가 채팅 인터페이스를 통해 지식에 액세스할 수 있도록 합니다. 

이는 공장 모니터링, 건설 현장 검사 및 이와 유사한 복잡한 실내 및 실외 환경에 적합합니다. 이 사용 사례는 에지 AI-RAN이 데이터 액세스 및 분석을 로컬, 보안 및 비공개로 유지하여 로컬 데이터 주권을 어떻게 구현하는지 보여줍니다. 이는 대부분 기업의 필수 요구 사항입니다.

로봇공학 응용 프로그램

SoftBank는 5G로 연결된 로봇에 대한 엣지 AI 추론의 이점을 보여주었습니다. 로보독은 음성과 동작을 기반으로 인간을 따르도록 훈련되었습니다. 

이 데모에서는 AI 추론이 로컬 AI-RAN 서버에 호스팅되었을 때와 중앙 클라우드에 호스팅되었을 때 로봇의 응답 시간을 비교했습니다. 그 차이는 분명하고 확실했습니다. 엣지 기반 추론 로보독은 인간의 움직임을 즉시 따라갔지만, 클라우드 기반 추론 로봇은 따라잡기 위해 애썼습니다.

Aerial RAN Computer-1을 사용하여 AI-RAN 비즈니스 사례 가속화

AI-RAN 비전이 업계에서 받아들여지고 있지만 GPU 기반 인프라의 에너지 효율성과 경제성은 여전히 ​​핵심 요구 사항입니다. 특히 기존 CPU 및 ASIC 기반 RAN 시스템과 비교할 때 더욱 그렇습니다. 

이번 AI-RAN의 실시간 현장 시험을 통해 SoftBank와 NVIDIA는 GPU 기반 RAN 시스템이 실현 가능하고 고성능일 뿐만 아니라 에너지 효율성과 경제적 수익성 면에서도 훨씬 뛰어나다는 것을 입증했습니다.

NVIDIA는 최근 차세대 NVIDIA Grace Blackwell 슈퍼칩을 기반으로 하는 Aerial RAN Computer-1을 권장 AI-RAN 배포 플랫폼으로 발표했습니다. 목표는 SoftBank 5G vRAN 소프트웨어를 NVIDIA GH200에서 GB200-NVL2 기반 NVIDIA Aerial RAN Computer-1로 마이그레이션하는 것입니다. 이는 코드가 이미 CUDA 준비가 되어 있기 때문에 더 쉬운 전환입니다. 

GB200-NVL2를 사용하면 AI-RAN의 사용 가능한 컴퓨팅이 2배 증가합니다. AI 처리 기능은 이전 H100 GPU 시스템에 비해 Llama-3 추론의 경우 5배, 데이터 처리의 경우 18배, 벡터 데이터베이스 검색의 경우 9배 향상됩니다. 

이 평가를 위해 GB200 NVL2 기반의 타겟 배포 플랫폼인 Aerial RAN Computer-1을 최신 세대의 x86 및 동급 최고의 맞춤형 RAN 제품 벤치마크와 비교하고 다음과 같은 결과를 검증했습니다.

  • 가속화된 AI-RAN은 동급 최고의 AI 성능을 제공합니다.
  • 가속화된 AI-RAN은 지속 가능한 RAN입니다.
  • 가속화된 AI-RAN은 높은 수익성을 보입니다.

가속화된 AI-RAN은 동급 최고의 AI 성능을 제공합니다.

100% AI 전용 모드에서는 각 GB200-NVL2 서버가 초당 25,000개의 토큰을 생성합니다. 이는 서버당 시간당 20달러, 월간 15,000달러의 수익 창출 가능 컴퓨팅에 해당합니다. 

현재 무선 서비스의 사용자당 평균 수익(ARPU)이 국가에 따라 월 5~50달러 사이라는 점을 고려하면, AI-RAN은 RAN 전용 시스템의 수익보다 수십억 달러 규모의 새로운 AI 수익 기회를 제공합니다. 

사용된 토큰 AI 워크로드는 Llama-3-70B FP4이며, 이는 AI-RAN이 이미 세계에서 가장 진보된 LLM 모델을 실행할 수 있음을 보여줍니다.

가속화된 AI-RAN은 지속 가능한 RAN입니다.

100% RAN 전용 모드에서 GB200-NVL2 서버의 전력 성능(와트/Gbps)은 다음과 같은 이점을 보여줍니다.

  • 현재 최고의 맞춤형 RAN 전용 시스템보다 전력 소모량이 40% 적습니다. 
  • x86 기반 vRAN보다 전력 소모량 60% 감소
  • 분산형 RAN 및 중앙 집중형 RAN 구성에서 유사한 효율성

공정한 비교를 위해 이는 모든 플랫폼에서 동일한 수의 100MHz 4T4R 셀과 100% RAN 전용 워크로드를 가정합니다.

그림 3. RAN 전력 소비 및 성능(와트/Gbps)

가속화된 AI-RAN은 높은 수익성을 보입니다.

이 평가를 위해 우리는 도쿄의 한 지구를 600개 셀로 덮는 시나리오를 비교되는 세 플랫폼 각각에 대한 RAN 배포의 공통 기준으로 사용했습니다. 그런 다음 RAN 전용에서 RAN 중시 또는 AI 중시까지 다양한 AI 및 RAN 워크로드 분배에 대한 여러 시나리오를 살펴보았습니다.

AI 중심 시나리오(그림 4)에서는 1/3 RAN과 2/3 AI 워크로드 분배를 사용했습니다.

  • NVIDIA GB200 NVL2 기반 가속화된 AI-RAN 인프라에 CapEx 투자 1달러마다 통신사는 5년 동안 5배의 수익을 창출할 수 있습니다.
  • 순이익 관점에서 볼 때, CapEx와 OpEx 비용을 모두 고려할 때 전체 투자는 219%의 이익 마진을 제공합니다. 물론 이는 현지 국가별 비용 가정을 사용하기 때문에 SoftBank에만 해당됩니다.
그림 4. 600개 셀로 도쿄 한 구역을 커버하는 AI-RAN 경제성


33% AI, 67% RAN 67% AI, 33% RAN
CapEx당 수익 $ 2배 5배
TCO에 따른 이익 마진 % 33% 219%

표 1. AI 중심 시나리오와 RAN 중심 결과 비교

 

RAN 중심 시나리오에서 우리는 3분의 2를 RAN에, 3분의 1을 AI 워크로드 분배에 사용했고, SoftBank의 현지 비용 가정을 사용하여 NVIDIA 가속 AI-RAN의 수익을 CapEx로 나눈 값이 2배이고, 5년간 이익 마진은 33%라는 것을 발견했습니다.

RAN 전용 시나리오에서 NVIDIA Aerial RAN Computer-1은 맞춤형 RAN 전용 솔루션보다 비용 효율성이 더 높습니다. 이는 무선 신호 처리에 가속 컴퓨팅을 사용하는 이점을 강조합니다.

이러한 시나리오에서 AI-RAN은 AI 중심 모드와 RAN 중심 모드 모두에서 RAN 전용 솔루션에 비해 수익성이 매우 높다는 것이 분명합니다. 본질적으로 AI-RAN은 기존 RAN을 비용 센터에서 수익 센터로 전환합니다. 

서버당 수익성은 AI 사용이 증가함에 따라 개선됩니다. RAN 전용에서도 AI-RAN 인프라는 사용자 지정 RAN 전용 옵션보다 비용 효율적입니다. 

수익 및 TCO 계산에 사용된 주요 가정은 다음과 같습니다.

  • 각 플랫폼의 플랫폼, 서버 및 랙의 수는 동일한 주파수인 4T4R에 600개 셀을 배치하는 공통 기준을 사용하여 계산됩니다.
  • 총 소유 비용(TCO)은 5년 동안 계산되며 하드웨어, 소프트웨어, vRAN 및 AI 운영 비용이 포함됩니다. 
  • 새로운 AI 수익 계산을 위해 GB200 NVL2 AI 성능 벤치마크를 기준으로 시간당 20달러/서버를 사용했습니다. 
  • OpEx 비용은 일본 내 전력 비용을 기준으로 하며 전 세계로 확장할 수 없습니다.
  • 이익 마진 % = (신규 AI 수익 - TCO) / TCO

AI 수익 증가, 에너지 효율성, AI-RAN의 수익성에 대한 이러한 검증은 기술의 실행 가능성, 성능, 경제적 이점에 대해 의심의 여지가 없습니다. 

앞으로 Vera Rubin과 같은 NVIDIA 슈퍼칩의 각 세대가 기하급수적으로 증가함에 따라 이러한 이점은 훨씬 더 증폭되어 통신 네트워크의 오랫동안 기다려온 비즈니스 혁신이 가능해질 것입니다.

앞으로의 전망

SoftBank와 NVIDIA는 AI-RAN의 상용화와 새로운 애플리케이션의 구현을 위해 계속 협력 하고 있습니다 . 참여의 다음 단계는 스펙트럼 효율성을 개선하기 위한 AI-for-RAN 작업과 미세 조정 및 테스트를 위해 디지털 세계에서 정확한 물리적 네트워크를 시뮬레이션하기 위한 NVIDIA Aerial Omniverse 디지털 트윈 작업을 수반합니다. 

NVIDIA AI Aerial은 전 세계의 운영자와 생태계 파트너가 가속 컴퓨팅과 소프트웨어 정의 RAN + AI의 힘을 사용하여 5G 및 6G 네트워크를 혁신할 수 있는 기반을 마련합니다. 이제 NVIDIA Aerial RAN Computer-1 및 AI Aerial 소프트웨어 라이브러리를 사용하여 자체 AI-RAN 구현을 개발할 수 있습니다. 

NVIDIA AI Enterprise는 또한 AI-RAN에서 호스팅 가능한 통신사를 위한 새로운 AI 애플리케이션을 만드는 데 도움이 되고 있으며, 이는 많은 NVIDIA 소프트웨어 툴킷이 사용된 이 시험에서 분명하게 드러납니다. 여기에는 생성 AI를 위한 NIM 마이크로서비스, RAG, VLM, 로봇 훈련을 위한 NVIDIA Isaac, NVIDIA NeMo, RAPIDS, 추론을 위한 NVIDIA Triton, AI 브로커링을 위한 서버리스 API가 포함됩니다.

통신 산업은 AI 서비스 제공자가 될 수 있는 엄청난 기회의 최전선에 있습니다. AI-RAN은 무선 네트워크의 새로운 기반으로 가속 컴퓨팅을 사용하여 전 세계 통신사를 위한 이 새로운 르네상스를 시작할 수 있습니다. 

이 발표는 AI-RAN 기술의 획기적인 순간을 나타내며, 실현 가능성, 통신사 등급 성능, 뛰어난 에너지 효율성 및 경제적 가치를 입증합니다. NVIDIA 가속 AI-RAN 인프라에 투자된 CapEx의 모든 달러는 6G에 대비하면서도 5배의 수익을 창출합니다. 

AI 수익화 여정은 지금부터 시작될 수 있습니다.

 

출처: https://developer.nvidia.com/blog/ai-ran-goes-live-and-unlocks-a-new-ai-opportunity-for-telcos
반응형