娇色导航

????

??? ??

IBM ????, 5? ?? ? ?? ??···??? “?? ??? ??? ?? ???”

??
2025.08.134?

?? 2????? ??? ??? ? ?? 27? ???? ??? ????, ????? ?? ??? ?????? ????? ???? ???? ?? ???? ???? ??? ????.

Credit: Rawpixel.com

IBM 클라우드는 11일 대규모 서비스 장애를 겪으며, 전 세계 기업 고객들이 2시간 넘게 핵심 자원에 접근하지 못하는 상황에 놓였다. 이는 지난 5월 이후 네 번째 발생한 주요 장애다.

이번 장애는 협정세계시(UTC) 기준 오후 12시 59분에 시작돼 2시간 23분 동안 이어졌으며, 전 세계 10개 리전에 걸쳐 27개 서비스가 영향을 받았다. IBM은 이번 사태를 최고 경보 등급인 ‘Severity One’으로 분류하며, 사고 보고서에서 고객들이 “서비스 중단, 성능 저하, IBM 클라우드 서비스 접근 불가”를 겪었다고 밝혔다.

이번 장애는 최근 반복된 것과 같은 유형이었다. 광범위한 인증 실패로 인해 사용자가 IBM 클라우드 콘솔, 명령줄 인터페이스, API에 접속하지 못한 것이다. 복구 작업은 오후 2시 9분에 완료됐으며, IBM은 영향받은 고객에게 브라우저 캐시를 삭제한 뒤 다시 로그인하라고 안내했다.

반복되는 장애, 근본적 문제 시사

이번 장애는 2025년 내내 IBM 클라우드를 괴롭혀 온 인증 관련 중단 사태의 연장선에 있다. 회사는 5월 20일(2시간 10분), 6월 3일(14시간 이상), 6월 4일(2시간 25분)에도 유사한 문제를 겪었으며, 모두 여러 리전에서 로그인 불가라는 동일한 증상을 보였다.

업계 분석가들은 이러한 반복 패턴이 IBM 제어 플레인 아키텍처의 근본적 취약성을 드러낸다고 지적한다. 제어 플레인은 사용자 접근, 서비스 오케스트레이션, 시스템 모니터링을 관리하는 핵심 인프라 계층이다.

컨설팅 기업 그레이하운드리서치(Greyhound Research)의 CEO이자 수석 애널리스트인 산치트 비르 고기아는 “IBM 클라우드의 반복적인 인증 및 로그인 장애는 애플리케이션 계층의 고립된 문제가 아니다”라며 “이는 클라우드 회복성의 본질을 훼손하는 제어 플레인의 구조적 취약성 신호”라고 분석했다.

6월 장애 중 한 건은 특히 심각했다. 가상 사설 클라우드(VPC), DNS, ID 관리, 모니터링 시스템, 그리고 고객 지원 포털을 포함한 54개 핵심 서비스가 영향을 받았다. 이로 인해 고객은 워크로드가 기술적으로는 가동 중이었지만, 지원 티켓조차 발급할 수 없어 사실상 관리 불가능한 상태가 됐다.

기업 운영에 미치는 위험

기업 고객에게 이번과 같은 장애는 단순한 일시적 불편을 넘어 운영 전반에 걸친 병목 현상을 야기한다. 현대 비즈니스는 지속적인 배포 파이프라인, 자동 확장, 실시간 모니터링에 의존하며, 이 모든 것은 안정적인 클라우드 관리 인터페이스 접근성을 전제로 한다.

컨설팅 기업 에베레스트그룹(Everest Group) 프랙티스 디렉터 카우스투브 K는 “클라우드 서비스 제공자의 대규모 장애는 빠르게 기업 신뢰를 약화시킨다”라며 “견고하고 투명한 SLA와 검증 가능한 복구 조치는 신뢰 유지에 필수”라고 말했다. 그는 이어 “서비스 약속 불이행은 고객 신뢰에 직접적인 타격을 주며, 잦은 장애는 벤더 관계 재평가로 이어질 수 있다”라고 설명했다.

현재 IBM의 시장 상황은 더욱 부담스럽다. 시장조사업체 스태티스타(Statista)에 따르면, 아마존웹서비스(AWS)가 전 세계 클라우드 인프라 시장의 30%, 마이크로소프트 애저(Azure)가 21%를 점유하는 반면, IBM 클라우드는 하이브리드 클라우드 역량에 막대한 투자를 하고도 시장 점유율 2%를 넘지 못하고 있다.

압박받는 하이브리드 클라우드 전략

IBM은 온프레미스 시스템과 퍼블릭 클라우드를 통합하는 하이브리드 아키텍처를 자사의 핵심 전략으로 삼고, 해당 분야에서 선도적인 입지를 확보하겠다는 목표를 세워왔다.

그러나 잇따른 제어 플레인 장애는 이러한 전략적 포지셔닝을 위협하고 있다. 그레이하운드리서치의 고기아는 “IBM 클라우드가 하이브리드 리더로 자리매김하려면 하이퍼스케일러보다 높은 회복성을 갖췄다는 전제가 필요하다”라며 “하지만 실제로는 플랫폼 수준의 제어 플레인 장애가 잇따라 발생하며 이런 인식을 정면으로 부정하고 있다”라고 지적했다.

고기아는 또 “ID 관리, DNS, 모니터링 시스템과 같은 핵심 거버넌스 기능이 전 세계적으로 얽혀 단일 장애 지점이 될 경우, 하이브리드 아키텍처의 회복성 우위가 사라진다”고 분석했다.

새로운 아키텍처 표준 필요성 제기

업계 전문가들은 이번 사태가 기업이 클라우드 공급자를 평가하고 시스템을 설계하는 방식에 근본적인 변화를 요구한다고 보고 있다.

카우스투브 K는 “반복되는 제어 플레인 장애는 공유 플랫폼 의존성의 아키텍처적 취약성을 보여준다”라며 “CIO는 지역별로 분리된 IAM, 분산형 ID 게이트웨이, 제어 플레인 회복성 SLA를 공급자 평가의 필수 조건으로 삼아야 한다”라고 조언했다.

고기아는 “제어 플레인도 컴퓨팅과 스토리지 계층만큼 엄격하게 검증해야 한다”라며, 콘솔과 API 응답성에 대한 명시적 SLA, 문서화된 장애 도메인, 대체 관리 접근 방식 확보를 요구해야 한다고 조언했다. 그는 한 공급자의 제어 플레인 장애가 모든 핵심 워크로드를 멈추지 않도록 ‘멀티 제어 플레인 아키텍처’를 구축해야 한다고 설명했다.

규제 산업에 미치는 파장

이 같은 장애 패턴은 의료, 금융, 공공 등 규제가 엄격한 산업에서 특히 심각한 의미를 가진다. 운영 중단이 규제 기관의 심사나 이사회 차원의 벤더 재평가로 이어질 수 있기 때문이다.

카우스투브 K는 “기업은 의존성 매핑, 재해복구 자동화, 설계 단계부터 회복성을 내장한 아키텍처로 제어 플레인 연속성을 보장해야 한다”며 “IAM을 최우선(Tier 0) 인프라로 다뤄야 한다”고 강조했다.

이번 사건은 이전보다 빠르게 복구됐지만, 반복되는 인증 장애는 단일 사건이 아닌 구조적 문제 가능성을 보여준다. IBM은 최근 장애 간 연관성이나 향후 재발 방지 대책에 대한 질의에 응답하지 않았다.
dl-ciokorea@foundryco.com

Gyana Swain is a seasoned technology journalist with over 20 years' experience covering the telecom and IT space. He is a consulting editor with VARINDIA and earlier in his career, he held editorial positions at CyberMedia, PTI, 9dot9 Media, and Dennis Publishing. A published author of two books, he combines industry insight with narrative depth. Outside of work, he’s a keen traveler and cricket enthusiast. He earned a B.S. degree from Utkal University.

? ??? ?? ???