娇色导航

????

??? ??

Anirban Ghoshal
Senior Writer

??, TPU ???? ????? ??···7? ?? ?? ?? ??

??
2025.07.223?
?????? ??

LibTPU? ??? ?? ?? ???? ?????? ?? ???? TPU?? AI ????? ???? ? ???, ??? ?????? ?? ??, ??? ??? ????.

Mountain View, CA, USA - Nov 24, 2023: Giant G logo is seen at Google's new Bay View campus, an all-electric campus totaling 1.1 million square at its headquarters in Mountain View, California.
Credit: Tada Images / Shutterstock

구글이 TPU(Tensor Processing Unit) 자원의 효율성을 높이기 위한 새로운 모니터링 라이브러리를 공개했다. 이는 기업들이 내부 및 고객 수요 증가에 따라 AI 워크로드를 확장하면서도 비용을 효과적으로 관리할 수 있도록 돕기 위한 목적이다.

‘TPU 모니터링 라이브러리’는 JAX, 파이토치(PyTorch), 텐서플로(TensorFlow) 등 머신러닝 프레임워크를 구글 클라우드 TPU에서 실행할 수 있도록 지원하는 구성요소인 LibTPU에 통합돼 있다.

구글은 공식 문서에서 “TPU 모니터링 라이브러리는 머신러닝 워크로드가 TPU 하드웨어에서 어떻게 수행되고 있는지에 대한 상세한 정보를 제공한다”며 “TPU 사용률을 이해하고 병목현상을 식별하며 성능 문제를 디버깅하는 데 도움이 되도록 설계됐다”고 설명했다.

이 라이브러리는 텔레메트리 API와 다양한 성능 지표 도구를 활용해 TPU의 운영 성능과 동작 방식에 대한 정밀한 통찰을 제공한다. 또한 소프트웨어 개발 키트(SDK)와 커맨드라인 인터페이스(CLI) 기반 진단 도구도 함께 제공돼, 기업이 TPU 리소스의 성능을 심층 분석하고 디버깅 작업을 수행할 수 있도록 지원한다.

포레스터의 부사장이자 수석 애널리스트인 찰리 다이는 “AI 워크로드를 확장하는 과정에서 AI 인프라의 성능에 대한 가시성과 인사이트 확보는 기업에 매우 중요한 요소”라고 언급했다. 그는 이어 “2024년 4분기 포레스터 테크 펄스(Tech Pulse) 조사에 따르면, IT 의사결정권자의 85%가 옵저버빌리티와 AI옵스(AIOps)에 주목하고 있다”고 덧붙였다.

구글의 TPU 모니터링 라이브러리는 기업이 TPU 활용률과 효율성을 판단하는 데 사용할 수 있는 최소 7가지 주요 지표를 제공한다. 여기에는 TPU의 특화 코어가 얼마나 효과적으로 사용되고 있는지를 측정하는 텐서코어 사용률(Tensor Core Utilization)과, 각 TPU 칩이 얼마나 바쁘게 작동하고 있는지를 보여주는 듀티 사이클 비율(Duty Cycle Percentage) 지표가 포함된다.

이외에도 고대역폭 메모리(HBM)의 총 용량(HBM Capacity Total) 및 실제 사용량(HBM Capacity Usage)을 추적할 수 있으며, 네트워크 성능 측정을 위한 버퍼 전송 지연(Buffer Transfer Latency) 지표를 통해 대규모 데이터 전송 과정에서의 병목을 식별할 수 있다고 구글은 설명했다.

또한, 이 라이브러리는 컴파일된 연산의 상세한 시간 분포를 확인할 수 있는 HLO 실행 시간 분포 지표(HLO Execution Time Distribution Metrics)와 실행 파이프라인의 혼잡도를 모니터링하는 HLO 대기열 크기(HLO Queue Size) 지표도 함께 제공한다.

AWS와 마이크로소프트도 유사한 도구 제공

구글 외에도 AI 인프라 자원(CPU 가속기, GPU 등)의 성능과 활용도를 최적화하기 위한 도구를 제공하는 클라우드 사업자는 여럿 있다.

경쟁 하이퍼스케일러인 AWS는 AI 워크로드 실행 비용을 최적화하면서 리소스 사용률을 극대화할 수 있는 다양한 방법을 제공하고 있다. 그중 하나가 ‘아마존 클라우드워치(Amazon CloudWatch)’다. 이 서비스는 트레이니엄(Trainium)과 인퍼렌시아(Inferentia) 기반 학습 워크로드에 대해 종단간 옵저버빌리티를 제공하며, GPU 및 가속기 활용률, 지연시간, 처리량, 자원 가용성 등의 메트릭을 포함한다.

또한 AWS는 세이지메이커 하이퍼팟(SageMaker HyperPod)과 같은 서비스를 통해 자원 활용을 보다 효율적으로 하고, 모델 학습 시간을 단축하는 방안도 제시하고 있다. 수작업 기반 모델 학습 방식은 지연, 불필요한 비용, 다양한 문제를 야기할 수 있으나, 하이퍼팟은 머신러닝 학습 인프라 구축 및 최적화에 필요한 수작업을 줄이고, 학습 시간을 최대 40%까지 단축할 수 있다고 AWS는 설명했다.

다이는 “TPU 모니터링 라이브러리처럼, 마이크로소프트는 자사 애저 마이아(Azure Maia) 칩셋의 모델 실행을 최적화할 수 있는 핵심 도구로 마이아 SDK(Maia SDK)를 제공하고 있다”며 “여기에는 디버깅과 추적을 위한 마이아 디버거(Maia Debugger), 마이아 프로파일러(Maia Profiler) 등의 개발자 도구도 포함된다”라고 설명했다.

다이는 “경쟁사들이 유사한 도구를 제공하고 있지만, 구글의 신규 모니터링 라이브러리는 AI 인프라 특화 클라우드 시장에서 구글 클라우드의 입지를 더욱 확대하는 데 효과적으로 기여할 것”이라고 평가했다.
dl-ciokorea@foundryco.com

Anirban Ghoshal
Senior Writer

Anirban is an award-winning journalist with a passion for enterprise software, cloud computing, databases, data analytics, AI infrastructure, and generative AI. He writes for CIO, InfoWorld, Computerworld, and Network World. He won the 2024 Silver Azbee Award for Best News Article in the Technology category. He has a post-graduate diploma in journalism from the Indian Institute of Journalism and New Media.

? ??? ?? ???