娇色导航

????

??? ??

By Nidhi Singal

? ?? ??? ???··· ???? “???? ???? ??? ???”

??
2025.07.144?
?????

?? ??? ?? ??? ??????? 365(M365) ???? ???? ???? ??, ???? ??? ??? ???? ???? ??? ???? ???? ?????? ?? ??? ?????? ??.

Microsoft logo on building
Credit: Mats Wiklund / Shutterstock

마이크로소프트(MS)의 아웃룩(Outlook) 서비스가 지난 10일 글로벌 접속 장애를 겪었다. 이로 인해 수백만 명의 사용자가 아웃룩 웹사이트, 데스크톱용 아웃룩, 모바일 아웃룩 앱으로 이메일에 접속하지 못하는 일이 발생했다.

MS는 X(구 트위터)의 마이크로소프트 365 상태(Microsoft 365 Status) 을 통해 이번 장애를 공식 인정하고, 아웃룩 서비스에 영향을 미친 문제에 대한 조사를 진행 중이라고 밝혔다. 해당 장애는 M365 관리자 센터에서 식별 번호 ‘EX1112414’로 추적됐다. 또한 MS는 일부 사용자에게서 마이크로소프트 팀즈(Teams) 접속 문제도 발생하고 있음을 확인했다. 이 문제는 ‘TM1112332’로 확인됐다.

이번 장애는 해결되기까지 총 19시간 이상 지속됐다. 에 따르면 잘못된 구성 변경으로 인해 관련 인프라 자원이 한계까지 사용되면서 서비스 장애가 발생한 것으로 알려졌다. 보고서는 “텔레메트리 모니터링과 장애를 겪었던 고객들과의 확인을 통해 현재는 서비스가 정상적으로 복구된 상태임을 확인했다”라고 밝혔다.

MS는 초기에 일부 메일박스 인프라가 효율적으로 작동하지 않고 있다고 밝혔지만, 장애의 근본 원인에 대해서는 구체적으로 언급하지 않았다.

테크인사이트(TechInsights)의 애널리스트 마니쉬 라왓은 “아웃룩, 팀즈, 셰어포인트(SharePoint) 등 M365의 핵심 서비스 전반에서 수 시간 동안 장애가 발생했다는 점은 MS 클라우드 인프라의 핵심 구조에서 심각한 문제가 있었음을 시사한다”라고 분석했다. 그는 “특히 엔트라 ID(Entra ID, 구 애저 액티브 디렉토리)의 인증 오류가 가장 흔한 기술적 원인으로 꼽히며, 이 경우 글로벌 서비스 전반의 접근이 차단될 수 있다. 또한 DNS, 익스체인지 온라인(Exchange Online), 라우팅 계층 등 주요 시스템에서의 잘못된 소프트웨어 업데이트나 구성 변경도 주요 원인이며, MS의 자동화된 롤링 업데이트 방식은 오류가 빠르게 확산될 가능성을 높인다”라고 설명했다.

라왓은 애저 트래픽 매니저(Azure Traffic Manager)나 DNS 관련 오류로 인해 잘못된 라우팅 또는 BGP 구성 오류가 발생하면 서비스 자체는 내부적으로 정상 작동하더라도 외부 접속이 차단되는 글로벌 접속 장애로 이어질 수 있다고 언급했다. 또한 오피스 365(Office 365)는 복잡하게 연결된 애저 마이크로서비스 기반 구조에 의존하고 있기 때문에 네트워크, 스토리지, 오케스트레이션 중 단일 지점에서 문제가 생기더라도 연쇄적으로 여러 애플리케이션에서 장애가 발생할 수 있다고 진단했다.

반복되는 문제

MS의 클라우드 서비스 장애는 올해에만 여러 차례 반복됐다. 지난 6월에는 의 핵심 애플리케이션인 팀즈와 익스체인지 온라인이 글로벌 장애를 겪었다. 지난 에도 아웃룩에서 접속 장애가 발생했으며, 이는 구성 변경에 기인한 문제로 분석됐다. 3월에는 아웃룩, 팀즈, 엑셀(Excel) 등 여러 서비스가 중단되며 이상의 사용자가 영향을 받았다.

MS 외에도 최근 몇 달간 주요 클라우드 서비스에서 잇따라 장애가 발생했다. 지난 6월 는 2차례 서비스 중단을 겪었고, 도 50개 이상의 서비스가 7시간 넘게 중단되는 글로벌 장애가 발생했다.

카운터포인트리서치(Counterpoint Research)의 부사장 닐 샤는 “오늘날 IT 시스템, 특히 아웃룩과 같은 클라우드 기반 서비스나 대규모 데이터 저장 솔루션은 점점 더 복잡해지고 있으며, 이 복잡성이 시스템 오류와 장애를 유발하는 주요 원인”이라며 “복잡성은 매일 생성, 전송, 수신되는 방대한 데이터의 양과 더불어, 이를 분석하기 위한 제어 시스템, 정책, AI 기반 알고리즘의 도입으로 더욱 심화되고 있다”라고 분석했다. 그에 따르면 이러한 ‘데이터 쓰나미’는 시스템의 구성 오류, 분산형 클라우드 문제, 시스템 과부하, 사이버 공격 등 취약점이 드러날 수 있는 영역을 늘리고 있다.

핵심 산업에 미치는 영향

이와 같은 서비스 장애는 업무 중단, 의사결정 지연, 비즈니스 결과 악화 등 연쇄적인 피해로 이어질 수 있다. 특히 금융, 공공 인프라, 응급 서비스처럼 시간 및 규제 준수가 중요한 산업에서는 그 영향이 훨씬 치명적일 수 있다.

라왓은 “금융·은행·보험(BFSI)이나 의료처럼 규제가 엄격한 산업에서는 감사 기록이 누락되거나, 중요 커뮤니케이션이 지연되며, 법적 및 보고 기준 준수가 어려워질 수 있다. 고객에게 미치는 영향도 심각하다. 서비스 수준 계약(SLA) 위반은 물론, 실시간 지원이나 금융 거래가 중단될 수 있으며, 무엇보다 고객이 기대하는 안정적이고 상시 연결된 커뮤니케이션이 무너지면서 신뢰에 큰 타격을 줄 수 있다”라고 말했다.

대기업의 경우 서비스가 중단되면 시간당 수백만 달러에 달하는 금전적 손실이 발생할 수 있으며, 이는 매출, 고객 신뢰, 비즈니스 연속성 전반에 영향을 미친다.

AI와 자동화를 통한 회복력 강화

샤는 이런 연쇄적 피해를 방지하기 위해 MS와 같은 클라우드 서비스 업체들이 보다 선제적이고 복원력 있는 대응 체계를 구축해야 한다고 지적했다. 그는 “이를 위해서는 중복 시스템 강화, 예측 기반의 자동 점검 도입, 구성 관리 고도화, 사고 대응 절차 간소화, 롤백 메커니즘 정비 등에 지속적으로 집중해야 한다”라고 설명했다.

향후에는 AI가 장애를 사전에 탐지하고 이를 예방적으로 완화하는 데 핵심적인 역할을 맡게 될 전망이다. AI 기반 시스템은 실시간으로 백업 기능을 가동하거나 자동 롤백을 실행해 서비스 연속성을 유지하도록 할 수 있다.
dl-ciokorea@foundryco.com

By Nidhi Singal

Nidhi Singal is an independent journalist reporting on how emerging technologies reshape economies, companies, and countries. She has over 18 years’ experience covering everything from mobile telecommunications to enterprise technologies. She has also written for India Today, Business Today and Fortune India.

? ??? ?? ???