??? AI? ??? ??? ????, ???, ??? ???? ?? ????? ????? ?? ??. ?? IT ???? ??? ???? ?? 흔히 사실이란 ‘흔들 수 없는 것’이라고 한다. 생성형 AI의 경우 매우 많은 양의 컴퓨팅 주기, 데이터 스토리지, 네트워크 대역폭, 전력 및 냉방 장치를 소비한다는 것이 흔들리지 않는 사실이다. CIO들은 ‘생성형 AI로 그냥 뭐라도 해야 한다’는 기업의 요구에 부흥하기 위해 클라우드 기반 또는 온프레미스 이니셔티브를 시작하고 있다. 하지만 많은 생성형 AI 프로젝트의 투자 대비 수익은 모호한 반면, 이를 실행하기 위한 인프라 비용은 한정돼 있으며 감당할 수 없을 정도로 높은 경우가 많다. 인프라 집약적이든 아니든 현재는 생성형 AI가 대세다. IDC에 따르면 전체 AI 서버 시장에서 생성형 AI 워크로드의 비율은 2022년 7.8%에서 2027년 36%로 증가할 전망이다. 스토리지에 있어서도 비슷한 곡선이 그려지는데, AI 스토리지는 2022년 전체의 5.7%에서 2027년 30.5%로 성장할 것으로 예상된다. IDC는 2024년 전 세계 생성형 AI 지출의 약 절반이 디지털 인프라 구축에 사용될 것이라고 언급했다. 또한 AI를 위한 전 세계 인프라 시장(서버 및 스토리지)은 2022년 281억 달러 규모에서 2027년 570억 달러로 약 2배 성장할 것으로 예상했다. 그러나 생성형 AI의 대규모 언어 모델(LLM)을 처리하는 데 필요한 엄청난 양의 인프라는 전력과 냉각 시설도 막대한 수준을 요구하기 때문에 빠르게 ‘지속 불가능’을 향해 가고 있다. IDC의 성능 집약적 컴퓨팅 연구 부사장인 피터 러튼은 “조직은 HPC(고성능 컴퓨팅)에 가까운 환경을 구축하기 위해 고대역폭 네트워크를 갖춘 클러스터에 투자할 가능성이 높다. 어느 조직이든 대규모 GPU 노드 클러스터에 투자하는 것을 신중히 생각해야 한다”라며, “사용 사례는 무엇인가? 데이터센터와 데이터 과학 기술을 보유하고 있는가?”라고 물었다. 소규모 언어 모델(sLM), 하이브리드 인프라로 전환현명한 IT 리더라면 온프레미스든 클라우드든 관계없이 생성형 AI 인프라에 대한 과도한 지출이 위험하다는 것을 알고 있다. 물리적 운영과 직원 역량, 클라우드 계약의 세부 사항을 면밀히 검토한 후 긍정적인 투자 수익을 창출할 전략을 마련하는 곳도 있다. 노스웨스턴 메디슨(Northwestern Medicine)의 첨단 기술 의료 책임자인 모지야르 에테마디는 엑스레이 이미지의 판독 속도를 향상하도록 설계된 생성형 AI 프로젝트에 착수했다. 만성적으로 인력이 부족한 영상의학팀의 생산성을 높이기 위해서다. 그는 컴퓨팅, 스토리지, 네트워킹 인프라를 늘려야 하는 LLM 대신 소규모 언어 모델로 작업해 인프라 요구 사항을 줄였다. 에테마티는 클라우드 기반 서비스를 실험했지만, 사용하기 어렵고 비용이 많이 든다는 사실을 알게 됐다. 그는 “여러 가지를 시도해 봤으나 비용 범위 내에서 생성형 AI가 작동하도록 할 수 없었다”라고 설명했다. 이를 계기로 그는 엔지니어링에 전념해야 한다는 것을 깨달았다. 12명의 의료 기술자로 구성된 팀을 이끄는 에테마디는 8개의 엔비디아(Nvidia) H100 텐서 코어 GPU가 탑재된 델 파워에지(PowerEdge) XE9680 서버로 4노드 클러스터를 구성하고 엔비디아 퀀텀-2 인피니밴드 네트워크로 연결했다. 코로케이션 시설에서 실행되는 이 클러스터는 이미지, 텍스트, 비디오를 포함한 멀티모달 데이터를 수집해 sLM에 엑스레이 이미지 해석 방법을 학습시킨다. 최근 특허를 받은 이 애플리케이션은 사진에 대한 매우 정확한 해석을 생성하며, 이를 HITL(Human-in-the-loop)에 제공한다. 에테마디는 “멀티모달이지만 크기는 작다. 매개변수는 약 3억 개에 불과하다. 최소 1조 개에 달하는 챗GPT와 비교하면 매우 작은 규모다”라고 설명하며, 초기 엑스레이 애플리케이션을 기반으로 CT 스캔, MRI 이미지, 대장 내시경 검사를 해석하는 데까지 확장할 계획을 세우고 있다고 언급했다. 그는 델 클러스터를 운영하는 것과 동일한 작업에 클라우드 기반 서비스를 사용하면 비용이 2배로 늘어난다고 말했다. 그는 “클라우드에서는 시간 단위로 비용을 지불하고 추가금을 내야 한다. 반면 미국의 거의 모든 병원에서 컴퓨터 4대는 예산 범위 내에서 구매할 수 있는 수준이다”라고 설명했다. 노스웨스턴 메디슨은 데이터 스토리지와 관련해 클라우드와 온프레미스 인프라를 모두 임시 및 영구 스토리지로 사용하고 있다. 에테마디는 “중요한 것은 업무에 적합한 도구를 선택하는 것이다. 스토리지에는 정답이 없다. 다만 스토리지는 일반적으로 클라우드의 프리미엄 요금이 가장 높은 영역이다”라고 언급했다. 노스웨스턴은 온프레미스에서 델 NAS, SAN, 보안 및 하이퍼 컨버지드 인프라 장비를 혼용하고 있다. 에테마디는 “얼마나 많은 데이터가 얼마나 오래 필요한지 살펴봤다. 대부분의 경우에 클라우드가 더 저렴하지 않았다”라고 덧붙였다. GPU 클러스터의 비용 계산한편 노스웨스턴과 비슷한 문제에 직면했지만 다른 접근 방식을 취한 기업도 있다. 영국의 생성형 AI 기반 번역 및 더빙 서비스 개발 기업인 페이퍼컵 테크놀로지스(Papercup Technologies)다. 상품의 장점을 세계적으로 알리길 원하는 페이퍼컵의 고객들은 광고 동영상에 사용할 설득력 있는 목소리를 다양한 언어로 생성하고 있다. HITL은 작업이 완료되기 전에 결과물의 정확성과 문화적 관련성을 검토한다. LLM 작업은 런던의 한 오피스 빌딩에서 시작됐지만 곧 확장됐다. 생성형 AI가 막대한 인프라 수요를 필요로 하기 때문이었다. 페이퍼컵의 엔지니어링 책임자인 도니요르 울마소프는 “처음에는 4-GPU 클러스터 구성의 자체 하드웨어를 구입하는 것이 비용 효율적이었다”라며 클라우드 기반 서비스보다 초기 비용을 60~70% 절감할 수 있었다고 말했다. 하지만 “6대의 머신을 추가했을 때 전력 및 냉각 요구 사항이 너무 커져 건물이 이를 수용할 수 없었다. 냉각이 되지 않아 일부 기계를 사용할 수 없었음에도 비용을 지불해야 했다”라고 그는 설명했다. 장애물은 전기와 냉각만이 아니었다. 그는 “서버급 장비에는 네트워킹 설정 및 원격 관리와 같은 노하우가 필요하기 때문에 시스템 유지 관리에 많은 인력이 투입됐고, 결과적으로 비용 절감 효과가 크지 않았다”라고 말했다. 그 시점에서 페이퍼컵은 클라우드가 필요하다고 판단했다. 현재는 고객을 위한 번역 및 더빙 워크로드를 처리하기 위해 AWS를 사용해 HITL의 검토를 받고 있다. 간단한 교육 워크로드는 여전히 사내에서 엔비디아 A100 텐서 코어, 지포스 RTX 4090 및 2080Ti 하드웨어로 구동되는 서버를 혼합해 실행한다. 보다 리소스 집약적인 교육은 구글 클라우드 플랫폼에서 호스팅되는 클러스터에서 처리한다. 페이퍼컵은 현재의 서비스를 기반으로 한 라이브 스포츠 이벤트와 영화 번역 및 더빙을 연구하고 있다. 페이퍼컵의 경우 인프라 구축은 지리적 요건이 기술 요구 사항만큼이나 중요했다. 울마소프는 “런던 외곽에 대규모 창고가 있었다면 ‘온프레미스를 유지해야 한다’라는 주장을 펼칠 수 있었을 터다. 하지만 우리는 도심에 있다. 공간, 전력, 냉각이 문제되지 않는다면 여전히 온프레미스를 고려할 것이다”라고 설명했다. GPU를 넘어서현재로서는 GPU 기반 클러스터가 CPU 기반 구성보다 확실히 빠르며, 이는 중요한 문제다. 에테마디와 울마소프 모두 CPU 기반 시스템을 사용하면 허용할 수 없는 지연이 발생해 HITL 전문가들의 대기 시간이 길어질 수 있다고 말했다. 그러나 IDC의 러튼은 현 세대 GPU의 높은 에너지 수요가 앞으로도 더 증가할 것이라고 내다봤다. 러튼은 “현재 엔비디아의 GPU는 700와트의 전력 소비 범위를 갖고 있는데, 다음 GPU는 2배로 늘어난다. 마치 실내 난방기 같다. 이 문제가 어떻게 쉽게 해결될지 모르겠다”라고 말했다. 현재 AI에서 GPU의 아성은 새로운 AI 코프로세서의 등장, 그리고 궁극적으로는 양자 컴퓨팅에 의해 도전받을 가능성이 있다. 전 娇色导航겸 CTO이자 현재 기술 고문으로 활동 중인 클라우스 토프젠슨은 “GPU는 그래픽 처리용으로 개발됐기 때문에 AI에 최적화돼 있지 않다. 점점 더 AI에 특화된 하드웨어를 보게 될 것”이라고 예측했다. 그는 GPU가 사라질 것으로 예상하지는 않지만, 미래의 AI 알고리즘이 온프레미스와 클라우드 모두에서 CPU, GPU, AI 코프로세서가 혼합돼 처리될 것이라고 주장했다. 전력 소비를 억제하는 또 다른 이슈로는 지속 가능성이 있다. 많은 조직이 지속 가능성 목표를 채택하고 있지만, 전력 소모가 많은 AI 알고리즘이 이를 달성하기는 어렵다. 러튼은 지속 가능성을 우선시하는 기업이라면 sLM, ARM 기반 CPU, 무배출 정책을 유지하거나 재생 가능 에너지로 생산된 전기로 구동되는 클라우드 서비스 업체를 사용하는 방법을 추천했다. 대규모 워크로드가 필요한 경우에는 FPGA(field-programmable gate arrays) 또는 ASIC(application-specific integrated circuits)로 구축된 마이크로프로세서를 사용하는 것도 고려할 수 있다. 러튼은 “훨씬 더 효율적이고 더 강력할 수 있다. 미리 하드웨어 코딩을 해야 하므로 시간과 노력이 필요하지만 GPU에 비해 비용을 크게 절감할 수 있다”라고 설명했다. 더 적은 전력을 사용하고 더 적은 열을 발생시키면서 훨씬 더 빠르게 실행되는 프로세서가 등장할 때까지 GPU는 생성형 AI의 ‘흔들리지 않는’ 숙명이다. 비용 효율적인 생성형 AI를 구현하려면 독창성과 인내심이 필요하다. 하지만 에테마디와 울마소프가 보여준 것처럼, 이 과제를 해결하는 데 sLM과 온프레미스 및 클라우드 기반 서비스를 능숙하게 조합하는 전략을 활용할 수 있다. dl-ciokorea@foundryco.com ???? ???? ??? ??? IT ??? ???? ??? ????! ??? ??? ??? ?????. ????