“AI? ?? ?? ????” ????? ?? ?···METR ?? ?? ??

AI ?? ??? ??? ???? ?? ??? ???? ???? ??? ??, ???? ?? ??? ??? ??? ??? ??? ? ??? ?? ??? ???.

AI vibe coding one hand is robot one hand is human

모델 평가 및 위협 연구 기관 METR(Model Evaluation & Threat Research)에 따르면, 애니스피어의 커서 프로(Cursor Pro), 앤트로픽의 클로드 같은 인기 AI 어시스턴트를 사용할 경우 숙련된 개발자는 작업 완료에 평균 19% 더 많은 시간이 걸리는 것으로 나타났다. 이는 AI 코딩 도구가 생산성을 높인다는 기술 업계의 기존 인식에 의문을 제기하는 결과다.

오픈소스 활동 경력이 풍부한 개발자 16명이 평균 100만 줄 이상의 코드로 구성된 대규모 저장소에서 총 246개의 실제 코딩 과제를 수행하는 과정을 추적했다. 이들은 커서 프로, 클로드 등의 AI 코딩 도구를 사용해 작업했으며, 연구진은 이들을 무작위 대조군 방식으로 나눠 AI 사용 허용 여부에 따라 업무 속도와 결과를 비교했다.

연구진은 “2025년 초반 기준 AI 도구가 숙련된 오픈소스 개발자가 자신이 관리하는 저장소에서 작업할 때 생산성에 어떤 영향을 미치는지를 파악하기 위해 무작위 대조 실험(RCT)을 진행했다”라며 “놀랍게도 개발자가 AI 도구를 사용할 경우, 사용하지 않았을 때보다 작업 완료에 평균 19% 더 많은 시간이 걸리는 것으로 나타났다. 즉, AI가 작업 속도를 늦추는 결과를 보였다”라고 밝혔다.

인식과 현실의 차이

주목할 만한 점은 기대와 현실 사이의 괴리다. 연구에 앞서 개발자들은 AI 도구가 작업 시간을 24% 단축시켜 줄 것으로 예상했다. 그러나 실제로는 작업 속도가 느려졌음에도 불구하고, 실험 후 참가자들은 AI 덕분에 생산성이 20% 향상됐다고 인식했다.

이에 대해 연구진은 “AI가 업무 속도를 높였다고 사람들이 말할 때, 그 인식이 틀렸을 수 있다”고 분석하며 인식의 간극을 지적했다.

이 같은 착각은 개인 개발자 수준을 넘어 경제학자와 머신러닝 전문가 집단으로도 확산됐다. 경제학자들은 AI가 생산성을 39% 향상시킬 것이라고 기대했고, 머신러닝 전문가들은 38%의 향상을 전망했지만, 이는 실제 효과를 과도하게 부풀린 수치였다.

그레이하운드리서치(Greyhound Research)의 수석 애널리스트이자 최고경영자인 산칫 비르 고기아는 “조직이 개발자 만족도를 생산성으로 착각할 위험이 있다”라며 “대부분의 AI 도구는 인지적 부담을 줄여 코딩 경험을 향상시키는 데는 효과적이지만, 특히 숙련된 전문가에게는 항상 더 빠른 결과로 이어지지는 않는다”라고 조언했다.

현실 기반의 통제 실험 진행

이번 연구는 AI 생산성 관련 연구에서는 드물게 무작위 대조 실험(Randomized Controlled Trial, RCT) 방식을 채택했다. 연구진은 “AI 도구가 소프트웨어 개발에 미치는 실제 영향을 직접 측정하기 위해, 평균 별점 2만 2,000개 이상, 코드 라인 수 100만 줄이 넘는 대규모 오픈소스 저장소에서 수년간 활동한 숙련 개발자 16명을 모집했다”라고 설명했다.

연구는 2025년 2월부터 6월까지 진행됐으며, 각 작업은 AI 도구 사용이 허용된 그룹과 금지된 그룹에 무작위로 배정됐다. 개발자들은 커서 프로와 클로드 3.5 소넷, 3.7 소넷을 주로 사용했고, 모든 참가자는 작업 과정을 화면에 녹화해 실제 사용 패턴을 파악할 수 있도록 했다. 평균 과제 수행 시간은 약 2시간이었다고 연구진은 밝혔다.

고기아는 “이번 실험은 AI가 자동으로 개발자 생산성을 높인다는 지나치게 단순한 전제에 대한 중요한 반론”이라며 “기업은 보다 엄격한 평가 체계를 도입하고, 벤더 주도의 기준을 넘어서는 구조화된 실험-학습 모델을 마련해야 한다”고 제언했다.

생산성 역설에 대한 이해

이번 연구는 작업 속도가 느려진 데 영향을 미친 여러 상호 연관된 요인을 밝혀냈다. AI 도구를 유용할 때만 사용하라는 지침이 있었음에도 불구하고, 일부 개발자들은 생산성을 벗어난 실험적인 사용을 한 것으로 나타났다. 참가자는 평균 5년의 경력을 보유했고, 자신이 기여한 저장소에 평균 1,500건의 커밋 기록이 있었다. 연구진은 특히 해당 작업에 사전 경험이 많은 개발자일수록 속도 저하가 더 컸다고 설명했다.

또한 개발자들은 AI가 제안한 코드 중 채택한 비율이 44% 미만에 불과했고, 75%는 AI가 생성한 코드를 한 줄씩 모두 읽어봤으며, 56%는 해당 코드를 정리하기 위해 대대적인 수정을 거친 것으로 나타났다. 특히 복잡한 의존성과 까다로운 코딩 규칙이 존재하는 대규모 성숙 코드베이스에서는, 문맥을 깊이 이해하지 못하는 AI 도구가 실질적인 어려움을 겪는 것으로 드러났다.

고기아는 “숙련 개발자에게서 나타난 평균 19%의 작업 지연은 AI 자체의 한계라기보다, 확률적 제안을 결정론적 워크플로우에 통합하려는 현실적 마찰을 보여준다”라며 “작업 속도뿐만 아니라 이후의 재작업, 코드 변경, 동료 리뷰 과정까지 포함한 종합적인 관점에서 생산성을 측정해야 한다”고 강조했다.

산업 전반에서 나타난 유사한 경향

METR 연구 결과는 2024년 구글의 개발·운영 역량 평가 보고서(DORA)에서 확인된 우려스러운 흐름과도 일치한다. 이 보고서는 3만 9,000명 이상의 전문가 응답을 바탕으로 작성됐다. 보고서에 따르면, 개발자의 75%는 AI 도구 사용 후 생산성이 높아졌다고 느꼈지만, 실제 수치는 이를 뒷받침하지 않았다. AI 도입률이 25% 증가할 때마다 소프트웨어 전달 속도는 1.5% 감소했고, 시스템 안정성은 7.2% 떨어진 것으로 나타났다. 또한 전체 응답자의 39%는 AI가 생성한 코드에 대해 신뢰도가 낮거나 전혀 없다고 답했다.

이 같은 결과는 기존의 낙관적인 연구와 상반된다. MIT, 프린스턴대, 펜실베이니아대가 마이크로소프트, 액센추어, 또 다른 포춘 100대 기업 소속 개발자 4,800여 명의 데이터를 분석한 연구에서는, 깃허브 코파일럿(GitHub Copilot)을 사용하는 개발자가 평균 26% 더 많은 작업을 완료한 것으로 나타났다. 별도로 진행된 통제 실험에서도 깃허브 코파일럿을 활용한 개발자의 작업 속도가 55.8% 빨라졌다고 분석됐다. 다만 이들 연구는 대부분 단순하고 독립적인 작업을 기반으로 했으며, METR 연구처럼 복잡하고 실제적인 환경을 반영하지 못했다는 차이가 있다.

이번 결과는 기업들이 AI 코딩 도구에 수십억 달러를 투자하는 시점에 나왔다. METR는 깃허브가 현재 생성되는 신규 코드의 41%가 AI에 의해 작성된다고 보고한 점을 언급하며, 그러나 실제로는 근본적인 신뢰 결여가 AI 효과를 저해하고 있을 수 있다고 밝혔다.

DORA 보고서에 따르면, 한 응답자는 “AI가 생성한 코드를 검토하는 것은 마치 스택오버플로(StackOverflow) 초창기와 비슷하다. 당시에는 글을 쓴 사람이 정말 전문가라고 믿고 무작정 복사·붙여넣기를 했는데, 결국 문제가 터지는 경우가 많았다”라고 표현했다.

AI 도구에 대한 전략적 접근 필요

생산성 저하에도 불구하고, 참가자의 69%는 실험 종료 이후에도 커서 를 계속 사용한 것으로 나타났다. 이는 개발자들이 단순한 속도 향상을 넘어서는 가치를 AI 도구에서 찾고 있음을 시사한다. METR는 “이번 결과가 AI 코딩 도구의 실패를 의미하는 것은 아니다”라며 “연구 환경에 특화된 여러 요인이 전체 상황에 그대로 적용되지는 않을 수 있다”라고 분석했다.

고기아는 기업이 ‘포트폴리오 사고방식’을 도입할 것을 권장했다. 그는 “문서화, 반복 코드 작성, 테스트처럼 인지적 부담을 줄일 수 있는 영역에는 AI 코파일럿을 적극 도입하고, 자동화보다 개발자의 전문성과 코드베이스 이해도가 더 중요한 영역에는 도입을 자제해야 한다”고 제안했다. 이어 “AI 도구를 보편적인 가속기가 아니라 맥락에 맞는 조력자로 인식하고, 이를 효과적으로 관리하고 측정할 수 있는 체계를 갖춰야 한다”라고 설명했다.
dl-ciokorea@foundryco.com

娇色导航

Africa

Americas

Asia

Europe

Oceania

??

About

??

????

??? ??

“AI? ?? ?? ????” ????? ?? ?···METR ?? ?? ??

AI ?? ??? ??? ???? ?? ??? ???? ???? ??? ??, ???? ?? ??? ??? ??? ??? ??? ? ??? ?? ??? ???.

인식과 현실의 차이

현실 기반의 통제 실험 진행

생산성 역설에 대한 이해

산업 전반에서 나타난 유사한 경향

AI 도구에 대한 전략적 접근 필요

? ??? ?? ???

“? ??? ??” ????? 2? ?? ???? ??? ?? 18% ??

???, AI ???? ?? ?? ?? ??···‘?? ?????? ?? ??’ ? ???

美 ??? IT ??? ??··· ?? ??, ?? ?? ??? ??

???? ?????, ?? ? ?????? ‘??? ?? ??’ ??

MS?? ?? ???··· ??AI-??? ????? ????? ???

‘CPU ?? ??? ??’··· ??, ???? ?? ?? ??

?? ?? ?? ??? ?? 86%? ???? ?? ?? ?

?? ???? 750? ?? ?? ??? ??··· ?? ?? ‘AI ??? ???’

?? ???

“AI ??? ??? ???”···SAP, BDC? ??? ???? ??? ??

?????? ???? '?? CVE'? ??? ? ? ?? ??

?? CEO “??? ? ?? ?? 10? ??? ?? ???”

娇色导航

“AI? ?? ?? ????” ????? ?? ?···METR ?? ?? ??

AI ?? ??? ??? ???? ?? ??? ???? ???? ??? ??, ???? ?? ??? ??? ??? ??? ??? ? ??? ?? ??? ???.

인식과 현실의 차이

현실 기반의 통제 실험 진행

생산성 역설에 대한 이해

산업 전반에서 나타난 유사한 경향

AI 도구에 대한 전략적 접근 필요

??? ??? IT ??? ???? ??? ????!

? ??? ?? ???

“? ??? ??” ????? 2? ?? ???? ??? ?? 18% ??

???, AI ???? ?? ?? ?? ??···‘?? ?????? ?? ??’ ? ???

美 ??? IT ??? ??··· ?? ??, ?? ?? ??? ??

???? ?????, ?? ? ?????? ‘??? ?? ??’ ??

MS?? ?? ???··· ??AI-??? ????? ????? ???

‘CPU ?? ??? ??’··· ??, ???? ?? ?? ??

?? ?? ?? ??? ?? 86%? ???? ?? ?? ?

?? ???? 750? ?? ?? ??? ??··· ?? ?? ‘AI ??? ???’

?? ???

“AI ??? ??? ???”···SAP, BDC? ??? ???? ??? ??

?????? ???? '?? CVE'? ??? ? ? ?? ??

?? CEO “??? ? ?? ?? 10? ??? ?? ???”