???? GB200? ? ???? ??? ????????(CloudMatrix) 384?? ?? ?? ??? ?????, ???? ?? ? ???????(HBM) ?? 5~6? ? ?? ?????? ??? ???? ???? ???? ??. Credit: Sushitsky Sergey - shutterstock.com 중국의 화웨이테크놀로지스(이하 화웨이)가 AI 컴퓨팅 시스템 ‘클라우드매트릭스 384’를 지난주 상하이에서 열린 세계인공지능대회(WAIC)에서 처음으로 일반에 공개했다. 이 시스템은 현장에서 큰 관심을 끌었다. 클라우드매트릭스 384는 지난 4월 처음 발표된 이후 업계의 주목을 받아왔으며, 일부 분석가들은 이 제품을 화웨이가 미국 반도체 기업 엔비디아의 최고 사양 AI 컴퓨팅 솔루션 ‘GB200 NVL72’에 대응하기 위해 내놓은 전략적 제품으로 평가하고 있다. 이번 출시는 미국의 수출 규제가 점점 강화되는 가운데, 화웨이가 고성능 AI 하드웨어 시장에서 경쟁력을 확보하려는 지속적인 노력을 보여주는 사례로 해석된다. 특히 이 제품의 등장은 중국 내 주요 AI 인프라 구축에서 화웨이가 엔비디아를 대체하거나 실질적인 경쟁 상대로 부상할 수 있을지에 대한 논쟁에 다시 불을 지폈다. AI 하드웨어 맞대결 반도체 컨설팅 기업 팹이코노믹스(Fab Economics)에 따르면, 화웨이의 클라우드매트릭스 384와 엔비디아의 GB200 NVL72는 두 가지 수준에서 비교할 수 있다. 칩 단에서는 화웨이의 어센드(Ascend) 910C와 엔비디아의 GB200이 성능을 겨루고, 시스템 단에서는 전체 AI 인프라의 성능이 평가 기준이 된다. 칩 성능에서는 엔비디아가 화웨이를 압도한다. 그러나 화웨이는 연산 및 고대역폭메모리(HBM) 칩을 5~6배 더 많이 통합함으로써 시스템 단에서는 우위를 확보하고 있다. 팹이코노믹스의 CEO 데니시 파루키는 “화웨이가 칩 단에서 물리적 한계를 극복하는 방식은 단순하다. 어센드 910C 칩을 5배 더 많이 넣으면, 각 GPU의 성능이 엔비디아 블랙웰(Blackwell) B200의 3분의 1에 불과하더라도 전체 성능에서 균형을 맞출 수 있다”고 설명했다. 팹이코노믹스의 분석에 따르면, 칩 단에서 엔비디아의 블랙웰 B200 GPU는 2,500테라플롭스의 성능을 제공하며, 이는 화웨이 어센드 910C보다 3배 이상 높은 수치다. 또한 B200은 HBM3E(8스택) 모듈 8개를 활용해 GPU당 192GB의 고대역폭 메모리를 제공한다. 반면 화웨이 910C는 구형 HBM 세대를 사용해 GPU당 128GB를 제공하는 데 그친다. 이 분석은 또한 엔비디아의 HBM 대역폭이 GPU당 8테라바이트/초에 달해, 화웨이보다 약 2.5배 높은 수준임을 보여준다. 시스템 성능과 전력 소비 시스템 단 성능에서 화웨이 클라우드매트릭스 384는 180 PFLOP을 기록해, 엔비디아 GB200 NVL72보다 약 40% 높은 성능을 제공한다고 파루키는 설명했다. 그는 이어 “하지만 클라우드매트릭스 384의 단점은 높은 전력 소비에 있다”고 덧붙였다. “이 시스템은 엔비디아 GB200 NVL72보다 4배 이상 많은 전력을 사용하며, PFLOP당 전력 효율도 2.5배 낮아 대규모 배치에는 비효율적”이라고 분석했다. 이 같은 전력 소모는 대규모 시스템 확장에 제약이 될 수 있다. 다만 전기요금이 미국보다 최대 4배 저렴한 중국에서는 현실적인 대안이 될 수 있다는 전망도 나온다. 파루키는 또 다른 제약 요인으로 “시스템 수준의 설비 투자비(CAPEX)와 운영비(OPEX)를 포함한 총소유비용(TCO), 그리고 연산 및 HBM 칩의 안정적인 수급 가능성”을 지목했다. 소프트웨어 지배력 화웨이 클라우드매트릭스 384가 하드웨어 성능에서는 엔비디아에 도전장을 내밀고 있지만, 소프트웨어 측면의 격차를 좁히는 일은 훨씬 복잡한 과제로 남아 있다. 엔비디아는 폐쇄형 CUDA 생태계를 기반으로 하고 있어, 개발자가 이를 벗어날 경우 상당한 전환 비용이 발생한다. CUDA를 포기하면 기존 코드의 상당 부분을 다시 작성해야 하며, 고도로 최적화된 라이브러리 접근 권한을 잃고, 엔비디아 생태계에서 형성된 방대한 개발자 커뮤니티의 지원도 받기 어려워진다. 하지만 2025년 이후 ‘오픈소스 시대’가 본격화되면서 AI 개발 환경도 빠르게 변화하고 있다. 파루키는 “많은 머신러닝 개발자들이 더 이상 CUDA로 직접 코드를 작성하지 않고, 파이썬 같은 상위 언어를 사용해 파이토치(PyTorch), JAX 같은 프레임워크에 의존하고 있다”라고 설명했다. 이들 프레임워크는 하드웨어 계층을 추상화해 플랫폼 간 전환을 쉽게 해준다. 그는 또 “화웨이는 CUDA의 생태계 기능을 모방한 자체 AI 소프트웨어 도구군을 빠르게 확장하고 있으며, 가장 널리 채택된 머신러닝 프레임워크인 파이토치와의 통합도 강화하고 있다”고 전했다. 파이토치는 기본적으로 CUDA와 긴밀히 연동되는 구조를 갖고 있다. 또한 화웨이는 다른 하드웨어에서 학습된 모델을 자사 칩에서도 효율적으로 실행할 수 있도록 ONNX(Open Neural Network Exchange)와 같은 크로스 플랫폼 표준에 투자하고 있다. 엔비디아의 소프트웨어 생태계는 여전히 높은 진입 장벽을 유지하고 있지만, 화웨이는 오픈 표준 채택과 범용 프레임워크와의 호환성 개선을 통해 기업의 도입 장벽을 점차 낮춰가고 있는 상황이다.dl-ciokorea@foundryco.com ???? ???? ??? ??? IT ??? ???? ??? ????! ??? ??? ??? ?????. ????