娇色导航

????

??? ??

benj_edwards
By benj_edwards

AI ????? ???? ?? ??? ? 7??

??
2025.07.239?

AI ????? ??? GPU?? ??? ?? ?? ???. ?????? ????, ?? ?? ??? ?? ??? ???? ????? ??? ??? ????.

Locked out of the data center
Credit: Rob Schultz / Shutterstock

AI는 기업 환경을 빠르게 변화시키고 있으며, 데이터센터도 예외는 아니다. 기업이 AI 활용 목표를 확대하면서 기존 데이터센터 모델이 이를 감당하지 못하는 문제가 나타나고 있다. 전력 및 냉각 시스템은 한계에 다다르고, 노후 네트워크는 데이터 병목 현상을 초래하고 있다. 더불어, AI의 거침없는 속도에 맞춰 인력 구성, 운영 거버넌스, 조직 문화까지 재정립해야 하는 상황이다.

AI 시대를 대비해 데이터센터와 그를 뒷받침하는 조직이 어떻게 바뀌어야 하는지 알아보기 위해 여러 실무자 및 IT 리더를 인터뷰했다. 그 결과, AI에 적합한 데이터센터를 만들기 위해 주목해야 할 7가지 인사이트를 도출했다.

1. AI 워크로드는 전력 냉각 시스템을 극한으로 밀어붙인다

AI 데이터센터 인프라는 막대한 전력과 물을 소모한다. 이는 단지 고성능 연산 때문만이 아니라, 시스템 구조와 운용 방식에서 기인한다.

스칸디나비안 데이터센터(Scandinavian Data Centers)의 설립자이자 CEO인 스반테 혼은 “AI 워크로드는 엄청난 연산 성능이 필요한 데다, 기본적으로 사용되는 GPU 등의 하드웨어 가격이 매우 높기 때문에 최대한 지속적으로 가동하려는 유인이 생긴다”라며, “결국 높은 전력 수요로 이어진다”라고 말했다.

이 같은 전력 수요는 기존 데이터센터와는 다른 양상으로 나타난다. NLM 포토닉스(NLM Photonics)의 CEO이자 마이크로소프트와 메타에서 AI 배치 전문가였던 브래드 부스는 “AI 시스템은 수많은 GPU나 TPU에 기능이 분산된다. 이에 따라 전통적인 스케일아웃 네트워크와 고대역폭 파이프를 통해 연산장치를 밀집 연결하는 스케일업 네트워크라는 이중 네트워크 구조가 요구된다”라고 설명했다. 연산 처리량이 급증하고 데이터 이동량이 방대해지면서 전력 및 네트워크 수요가 동시에 폭증하게 되는 것이다.

이런 문제는 소규모 환경에서도 마찬가지다. 영국 교육부문에서 활동하는 클래스룸365(Classroom365)의 디렉터 마크 프렌드는 “런던의 한 교육기관에서는 GPU 기반 추론, 학사관리시스템(MIS), CCTV 처리를 동시에 수행하다가 기존 UPS 용량이 부족해 서버실 전체 사양을 재설계해야 했다”라며, “대부분 학교는 AI 하드웨어가 요구하는 전력 및 냉각 부담을 고려하지 않고 있다”라고 지적했다.

기업 환경에서도 인프라 계획의 패러다임 전환이 필요하다. 미션 크리티컬 그룹(Mission Critical Group)의 CEO 제프 드리스는 “AI 워크로드가 확대되면서 병목은 연산 성능이 아니라 전력이 되고 있다. 이제는 랙 근처에 고밀도·고가용 전력을 빠르게 공급하고, 모듈형 확장이 가능한 구조가 필요하다”라고 강조했다.

이 같은 변화 속에서 가능성도 보인다. 혼은 “최신 AI 서버는 효율적인 냉각 기법을 채택하고 있어 폐열을 지역난방이나 온실 농업 등에 재활용할 수 있다”라며, “앞으로는 에너지 절감이 아니라 ‘똑똑하게 쓰는 방식’이 관건이 될 것”이라고 덧붙였다.

2. 네트워크 인프라가 AI 속도를 따라가지 못한다

AI 인프라에 대한 투자가 본격화되면서 많은 기업이 예상치 못한 한계에 부딪히고 있다. 미국 대형 식료품 체인 앨버슨(Albertsons)의 데이터 책임자인 찬드라칸스 풀리군들라는 “AI 워크로드를 위해 인프라를 준비했을 때, 병목이 단지 연산 처리에서 끝나지 않고 입출력과 데이터 파이프라인에서도 발생한다는 사실을 깨달았다. 비싼 GPU를 사 놓고도 데이터가 처리되거나 유입되기를 기다리느라 놀고 있는 상황이 흔하다”라고 밝혔다.

빠른 로컬 스토리지와 효율적인 데이터 적재의 중요성을 간과하기도 했다. 폴리군들라는 “컴퓨팅 계층 가까이에 NVMe 캐싱을 도입하고, 데이터 전처리 작업을 상류 단계로 옮기는 식으로 파이프라인을 재설계했다. 이런 변경이 하드웨어 업그레이드보다 학습 시간에 훨씬 큰 영향을 줬다”라고 설명했다.

이처럼 AI의 요구 사항과 기존 인프라 간의 불일치는 네트워크 구조 전반에서 나타난다. 노키아의 네트워크 인프라 담당 CMO 마니시 굴야니는 “기존 데이터센터 네트워크는 초저지연, 높은 신뢰성, 대규모 확장성 등 AI 시대의 데이터량과 반응성, 보안 수요를 충족하기에 최적화되어 있지 않다”고 지적했다.

굴야니는 이에 대한 대응으로, 많은 기업이 AI 특화 고용량·저지연·무손실 데이터센터 패브릭을 구축하고 있다고 전했다. 노키아는 하이퍼스케일러인 엔스케일(nScale), 전문 클라우드 서비스 업체 코어위브(CoreWeave)와 협력해 800G IP 및 광 네트워크 기반 차세대 인터커넥트 솔루션을 개발하고 있다. 굴야니는 “통신 업계가 이제 네트워크 설계를 다시 생각해야 할 시점”이라며 “확장성, 유연성, 자동화를 우선순위에 두지 않으면, 네트워크 자체가 AI 전략의 병목이 될 수 있다”라고 강조했다.

3. 클라우드 하이브리드 스토리지가 핵심 요소다

AI 워크로드가 진화하면서, 온프레미스 인프라에 집중해온 기업조차도 퍼블릭 클라우드와 하이브리드 스토리지 전략을 채택하고 있다. 인포시스(Infosys)의 미국 딜리버리 책임자 겸 최고 부사장 아난트 아디야는 “성공적인 AI 기반 데이터센터 현대화는 워크로드를 퍼블릭 클라우드로 이전하고 하이브리드 스토리지를 도입하는 방향으로 이뤄지고 있다. 이를 통해 민첩성을 높이고 에너지 사용량과 비용을 절감한다”라고 설명했다.

이처럼 온프레미스와 클라우드의 컴퓨팅을 함께 사용하는 방식은 단순히 성능 차원의 문제가 아니다. AI 인프라에 막대한 예산을 투입하기 어려운 기업에는 ‘AI 시대에 합류할 수 있느냐’를 좌우하는 요인이 된다. 클래스룸365의 마크 프렌드는 “우리가 지원하는 학교들 중 상당수는 예산이 열악한 교육청 소속으로, AI 인프라를 다시 구축하거나 전문 인재를 채용할 여력이 없다. 하지만, 그렇다고 기회를 박탈당하는 건 아니다”라고 말했다.

이들이 도출한 해법은 실용적 접근이다. 프렌드는 “가장 효과적인 방식은 클라우드 기반 추론 서비스에 무거운 연산을 맡기고, 온프레미스 인프라는 최소한으로 유지하면서 안정성을 극대화하는 하이브리드 모델이다. 직접 GPU를 구매해 랙을 구성하는 대신, 필요할 때 클라우드에서 GPU를 예약 사용하는 방식이라고 보면 된다”라고 설명했다.

이런 전략은 기술 이전에 인식의 변화가 필요하다. 프렌드는 “돈을 더 쓴다고 해결되는 문제가 아니다. 어떤 부분에 외부 자원을 활용하고 어떤 부분은 내부에서 처리할지 정확히 아는 것이 핵심”이라며, “소규모 기업이나 자원이 부족한 환경에서는 연산 성능보다도 통합과 연결성이 더 큰 도전”이라고 강조했다. 하이브리드 전략은 가장 유연하면서도 포용적인 해법이 될 수 있다.

4. 데이터 거버넌스와 윤리적 통제는 어느 때보다 중요하다

CIO는 단순히 하드웨어 성능만을 고려할 것이 아니라, AI 애플리케이션에 활용될 데이터센터 내 데이터, 그리고 이 데이터 사용이 불러올 규제 및 윤리 문제까지도 포괄적으로 고민해야 한다.

워릭 경영대 정보시스템 부교수 슈웨타 싱은 “공정하고 설명 가능하며 규정을 준수하는 AI 모델을 구현하려면, 데이터 파이프라인의 투명성, 모델 버전 관리, 감사 가능한 워크플로우가 필수”라고 강조했다.

AI 모델 자체가 ‘블랙박스’로 남아 있더라도, 이를 둘러싼 시스템은 충분히 투명하고 책임질 수 있어야 한다. 데이터의 출처, 처리 방식, 학습에 사용된 데이터, 각 모델 버전의 전체 문서화, 배포 이력 등의 기록은 추적성과 신뢰성을 보장하는 핵심이다. 싱은 “AI 대응 인프라는 속도와 확장성만큼이나 신뢰와 책임성이 중요하다”라고 덧붙였다.

이 같은 신뢰는 강력한 데이터 거버넌스에서 시작된다. 알텀 스트래티지 그룹(Altum Strategy Group) CEO 매튜 갠트너는 “기업이 자사 데이터의 보유 현황, 소유권, 품질 등에 대해 어떻게 대답하느냐가 AI 대응 역량을 보여준다”라며, “IT와 비즈니스 리더뿐 아니라 데이터센터 책임자도 포함한 독립적인 데이터 거버넌스 조직을 구성해야 한다”라고 조언했다. 특히 데이터센터를 보유한 기업의 경우, 데이터센터 구성원이 거버넌스 위원회에 포함돼 해당 정책과 실행을 책임져야 한다고 강조했다.

그래디언트 AI(Gradient AI)의 CEO 스탠 스미스는 AI 책임 구현의 기본 조건으로 ‘데이터의 완전성과 일관성’을 꼽았다. 스미스는 “한 고객이 공유한 데이터 세트의 핵심 항목 40%가 누락되거나 불완전한 경우가 있었는데, 이는 흔한 일이다. 데이터 품질이 낮고 거버넌스가 부족하면, 아무리 정교한 AI 시스템이라도 편향되거나 불완전하거나 무의미한 결과를 낼 수밖에 없다”라고 경고했다.

5. 데이터센터 인력도 기술 업그레이드가 필요하다

AI는 데이터센터 하드웨어만이 아니라 시스템을 유지하는 인력에게도 큰 압박을 가하고 있다. 스칸디나비안 데이터센터의 스반테 혼은 “AI 연산 수요가 폭발적으로 늘면서 기술 격차가 커지고 있고, 인재 풀은 이를 따라잡지 못하고 있다”라고 진단했다. 2024년 업타임 인스티튜트의 글로벌 데이터센터 조사에서도 응답자의 71%가 ‘자격을 갖춘 인력 부족’을 우려한다고 답했다.

이 문제는 전통적인 인프라 역할뿐 아니라 AI를 뒷받침하는 새로운 기술 역량 전반에 걸쳐 나타나고 있다. 클래스룸365의 마크 프렌드는 “일반적인 시스템 관리자는 엔비디아 트리톤이나 쿠버네티스 기반 모델 라이프사이클 관리 도구를 다뤄본 경험이 거의 없다”라고 지적했다.

프렌드는 인프라 담당자를 머신러닝 전문가로 만드는 것이 아니라, 필요한 기초 역량을 제공하는 것이 목표라며, “우리는 팀에게 컨테이너 관리와 기본적인 모델 오케스트레이션을 교육해 AI 도구를 다루는 데 있어 막막하지 않도록 만들었다. 딥러닝을 가르치려는 게 아니라, AI가 연결되더라도 인프라가 멈추지 않게 유지하려는 것이 핵심”이라고 강조했다.

클라우드엑스(CloudX)의 최고 비즈니스 임원 악셀 아불라피아는 대기업 환경에서는 이보다 더 깊은 수준의 역량 향상이 필요하다며, “전통적인 인프라 역할만으로는 부족하다. 물리 계층과 AI 워크로드가 그 위에서 어떻게 작동하는지를 모두 이해할 수 있는 인력이 필요하다”라고 말했다.

자동화와 협업의 중요성도 강조했다. 아불라피아는 “AI는 자동화 수요를 높이고, 데이터 과학, 데브옵스, IT 등 다양한 도메인의 협업이 필수적”이라며, “리더의 가장 큰 과제는 단지 인재 채용이 아니라, 팀 전체의 교육과 재훈련을 계획하는 일”이라고 덧붙였다.

6. 스마트 조직은 교차 기능형 거버넌스를 구현한다

기업이 AI를 전체 비즈니스에 걸쳐 실질적으로 구현할 때, 도메인 간 협업은 더욱 중요해진다. 선도적인 기업은 AI 시대에 맞춰 데이터센터를 정렬시키기 위해 이를 전담하는 교차 기능형 조직을 구성하고 있다.

베스트 프랙티스 인스티튜트(Best Practice Institute)의 CEO 루이스 카터는 “인프라, 운영, 고객 서비스, 영업, 데이터 과학, 프로그래머, 사이버보안, 컴플라이언스, 고객 인사이트, 비즈니스 리더 등 다양한 주체가 한자리에 모여야 한다”라며, “단지 계획을 세우는 차원이 아니라, 성공을 함께 책임지고 함께 창출해야 한다”고 강조했다. 또 이런 AI 위원회는 “사일로 구조나 그림자 프로젝트를 방지해, 조직 내 소통 단절과 신뢰 저하를 막는다”라고 덧붙였다.

AI 워크로드에서는 전통적인 영역 구분이 흐려지기 때문에 이런 정렬의 필요성은 더욱 커진다. 앨버슨의 풀리군들라는 “AI는 기존보다 소프트웨어와 인프라 팀 간의 협업을 훨씬 더 많이 요구한다. 소프트웨어 개발자는 하드웨어 제약을 인지해야 하고, 운영팀은 학습 작업이나 추론 서비스의 동작을 이해해야 한다”라고 말했다.

풀리군들라는 머신러닝 워크플로우에 맞게 가시성 도구, API, 코드 기반 인프라를 갖춘 ‘개발자 친화적인 데이터센터 환경’을 제안했다. 이런 협업 중심 인프라는 현재 모델뿐 아니라, 향후 어떤 변화에도 유연하게 대응할 수 있는 기반이 된다.

7. 리더십과 명확한 계획이 전환의 핵심이다

베스트 프랙티스 인스티튜트의 카터는 “AI 대응 데이터센터를 만드는 것은 단순한 인프라 문제가 아니라 리더십의 문제”라며, “명확성이 없는 AI는 서랍 속 기술이 될 뿐”이라고 지적했다.

많은 기업이 무엇을 달성하려는지, 성공 기준이 무엇인지 명확히 정의하지 않은 채 AI 프로젝트에 착수한다. 카터는 “대부분 기업은 문제 정의, 의사결정 방식, 성공 지표에 맞춰 각 팀을 정렬하지 않고 서둘러 AI를 도입하려 한다”라며, “효과적인 리더는 도구가 아니라 사람에서 출발해, 조직 문화와 거버넌스, 변화 대응 역량에 먼저 투자한다”라고 강조했다.

이 같은 교훈은 인포시스의 아난트 아디야도 여러 차례 목격했다. 아디야는 많은 AI 데이터센터 현대화 프로젝트가 “기존 시스템 통합의 복잡성을 과소평가하거나, 명확한 전환 로드맵이 부족해 중단된다”라며, 체계적인 계획과 변화관리의 중요성을 강조했다.

AI는 한 번의 도입으로 끝나는 것이 아니라, 계속되는 전환 과정이라는 점도 중요하다. 카터는 “AI 워크로드는 반복적이며, 인간의 개입을 계속 요구한다. IT팀도 이제는 제품 개발팀처럼 짧은 사이클, 스프린트, 지속적 학습을 통해 비즈니스 가치에 연결하고 고객과 가까이 있어야 한다”라고 조언했다.

카터는 “리더는 조직 전체를 대상으로 교육과 코칭을 할 시간을 마련해야 한다”라며, “기술뿐 아니라, 그 기술이 어떻게 업무 흐름과 의사결정을 바꾸는지를 이해시키는 것이 중요하다”라고 덧붙였다. 투명성이 핵심이며, 사람은 이해하지 못하는 것을 두려워한다는 점에서 직원이 AI 시대를 이해하도록 돕는 것이 데이터센터를 준비하는 데 가장 중요한 일일 수 있다.
dl-ciokorea@foundryco.com

benj_edwards
By benj_edwards

Benj is editor-in-chief of Vintage Computing and Gaming. He's written for the PCWorld, Macworld, Atlantic, PCMag and Fast Company.

? ??? ?? ???