????? ‘??? ??’??? ??? ??? ??? 3.5 ?? LLM? ??????, ?? ???? ???(RPA) ??? ??? ???? ????. Credit: T. Schneider / Shutterstock 앤트로픽의 클로드 3.5 소넷 대형 언어 모델이 이제 컴퓨터를 직접 조작하는 능력을 갖추게 되었다. ‘(computer use)’이라는 새로운 기능은 현재 베타 테스트 중이다. 개발자는 앤트로픽 API를 통해 클로드 3.5 소넷에 화면 내용 판독, 텍스트 입력, 커서 제어, 버튼 조작, 화면 전환 등을 명령할 수 있다. 이는 기존 RPA 도구의 기능과 유사하지만, 더 고도화된 작업 수행이 가능하다. 컴퓨터 사용 기능은 클로드의 프롬프트에서 목표를 입력하며 사용할 수 있다. 클로드는 입력된 목표를 달성하기 위한 단계를 파악하고, 사람이 컴퓨터 화면을 보는 것처럼 스크린샷을 분석하여 각 단계의 실행 방법을 결정한다. 이 기능의 핵심은 클로드 3.5 소넷이 이미지에서 특정 요소의 좌표를 파악하여 화면의 버튼이나 텍스트 상자에 커서를 정확히 위치시킬 수 있다는 점이다. 클로드 3.5 소넷은 사용할 도구와 소프트웨어의 정의 및 접근 권한을 먼저 확보해야 한다. 이후 도구 실행을 요청하고 결과를 분석하여 작업 완료 여부나 후속 조치 필요성을 판단한다. 자동화에 미치는 영향 앤트로픽은 ‘컴퓨터 사용’이라는 기능이 AI 개발에 있어 새로운 전환점을 제시하며, 지금까지는 활용되지 않았던 다양한 사용 사례들을 구현할 수 있다고 표현했다. 앤트로픽은 공식 블로그에서 “지금까지 LLM 개발자는 AI가 다양한 작업을 수행할 수 있도록 맞춤형 환경을 구축해야 했다”라며 “이제는 모델을 도구에 맞출 수 있으며, 사람들이 일상적으로 사용하는 컴퓨터 환경에서 클로드가 인간처럼 소프트웨어를 활용할 수 있을 것”이라고 설명했다. RPA 기업 유아이패스(UiPath)는 자사의 세 가지 제품인 모두를 위한 UiPath 오토파일럿, 클립보드 AI, 새로운 의료 기록 요약 도구에 클로드 3.5 소넷을 통합했다고 발표했다. AI 스타트업 두저 AI(Dozr AI)의 설립자 폴 차다는 클로드의 컴퓨터 사용 기능이 RPA 시장에 혁신을 불러일으킬 수 있다고 평가했다. 차다는 “앤트로픽의 접근 방식은 RPA의 주요 문제인 사용자 인터페이스 변경 시 유지 보수 필요성이나 오류 발생을 해결한다. 컴퓨터 사용 기능은 사전 정의된 스크립트 대신, 화면을 직접 인식하고 이해하며 작동한다”라며 “AI가 다양한 작업을 수행하거나 상호작용할 때 발생하는 정보와 피드백을 학습하면서, 더 정확하고 효율적으로 동작하도록 스스로 발전할 수 있다”라고 분석했다. 한계 앤트로픽은 컴퓨터 사용 기능이 아직 에 있으며, 몇 가지 한계가 있다고 밝혔다. 예를 들어, 화면 해상도가 XGA(1024×768) 또는 WXGA(1280×800) 이상일 경우 이미지 스케일링 문제로 애플리케이션 조작에 어려움을 겪을 수 있다. 또한, 앤트로픽은 프롬프트 주입 공격의 위험성도 경고했다. 클로드가 이미지를 포함한 웹 페이지를 탐색할 때 해당 이미지나 텍스트에 포함된 명령이 사용자 지시를 무시하거나 클로드가 실수를 하도록 유도할 수 있다는 것이다. 앤트로픽은 이러한 위험을 줄이기 위해 다음과 같은 조치를 권장했다. 악성 콘텐츠 접근을 방지하기 위해 승인된 인터넷 도메인에만 클로드 3.5 소넷이 접속할 수 있도록 조치 계정 로그인 정보와 같은 민감한 데이터에 대한 모델의 접근 제한 시스템 공격이나 사고 방지를 위해 최소 권한으로 전용 가상머신이나 컨테이너 사용 또한 쿠키 수락, 금융 거래 실행, 서비스 약관 동의 등 적극적인 동의가 필요한 작업과 중요한 결정에는 인간 감독자의 개입이 필요하다고 제안했다. 다만 컴퓨터 사용을 테스트한 사용자는 클로드가 사용자 지시와 다른 명령을 수행할 수 있다는 점에 대해 우려를 표명했다. 영국 이커머스 기업 문페그(Moonpig)의 AI 책임자 피터 고스테브는 “앤트로픽의 에이전트는 현재 제대로 사용할 수 있는 수준이 아니다”라며 “자주 멈추고, 웹 탐색 시 4분마다 약 1달러 비용의 토큰을 소모한다”라고 지적했다. 직접 체험하기 마틴 베차드는 링크드인에서 소프트웨어 개발을 위해 컴퓨터 기능을 쓰려면 기술적 완성도가 더 높아져야 한다고 지적했다. 베차드는 “앤트로픽으로 인해 사용자가 해야 할 일이 많이 남아있는 것은 사실이다. 하지만 다른 AI 프레임워크도 대부분 동일한 방식을 따른다. 애플리케이션 빌더가 실제로 지침을 해석하고 LLM의 명령에 따라 데이터 검색 등의 작업을 수행하는 식”이라고 설명했다. 베차드는 오픈AI도 유사한 도구를 보유하고 있다고 언급했다. 베차드는 “오픈AI 역시 비슷한 방식으로 작동하는 도구를 제공하고 있다. 호출 가능한 도구를 정의하면 GPT가 생각의 흐름을 중단하고 적절한 시스템 데이터를 얻기 위해 호출 애플리케이션에서 함수 호출을 요청할 수 있다”라며 “또한 오픈AI의 ‘어시스턴트 API(Assistant API)’는 애플리케이션과 LLM 사이에 계층을 도입하여 매 호출마다 컨텍스트를 전송할 필요 없이 유지할 수 있지만, 여전히 중단 기반으로 작동한다”고 설명했다.dl-ciokorea@foundryco.com ???? ???? ??? ??? IT ??? ???? ??? ????! ??? ??? ??? ?????. ????