??? ? ?? ?? ??, ?? ???? ??-4? ????? ???? ??? ???? ??? ????? ??? ??? AI ?? ???? ??? ??? ????. Credit: Ascannio - shutterstock.com xAI가 새롭게 출시한 그록-4가 방어 체계의 허점을 드러내고 있다. 최근 공개된 다중 회화 기반의 유도 우회 기법에 취약한 모습을 보인 것이다. 일론 머스크가 선보인 최신 대형 언어 모델(LLM)이 공개된 지 이틀 만에, 뉴럴트러스트(NeuralTrust) 연구팀은 명시적인 유해 입력 없이도 그록-4의 가드레일(안전장치)을 무력화하고 몰로토프 칵테일 제조법을 끌어내는 데 성공했다. 연구팀은 에코챔버(Echo Chamber)와 크레센도(Crescendo)라는 기법을 조합해, 그록-4로부터 몰로토프 칵테일 제조법을 안내받는 데 성공했다. 해당 공격은 명시적인 유해 요청 없이도 이뤄졌으며, 그 자체로 AI 안전 시스템의 본질적인 약점을 보여준다는 분석이다. 뉴럴트러스트의 연구원 아흐마드 알로바이드는 14일 “대형 언어 모델에 대한 우회 기법은 각각 진화할 뿐 아니라, 결합을 통해 더욱 강력한 효과를 발휘할 수 있다”라며 “우리는 에코챔버와 크레센도를 함께 활용해 그록-4를 뚫었다”라고 설명했다. 여러 우회 기법을 통한 은밀한 백도어 공격 연구팀은 에코챔버 기법으로 실험을 시작했다. 이 방식은 모델이 여러 대화에서 일관된 내용을 신뢰하는 특성을 이용해, 동일한 악의적 아이디어나 행동을 반복적으로 ‘반향’시키는 다중 회화를 통해 작동한다. 모델은 새로운 대화 스레드에서 이전 대화를 참조하는 프롬프트를 받을 경우, 동일한 개념이 여러 번 등장했기 때문에 허용 가능한 것으로 간주하게 된다. 알로바이드는 “설득 사이클만으로는 모델을 유해한 목표로 이끄는 데 충분하지 않았다”며 “이 지점에서 크레센도가 필요한 추진력을 제공했다”고 설명했다. 마이크로소프트(MS)가 처음 식별하고 명명한 크레센도 우회 기법은, 무해한 프롬프트에서 시작해 점진적으로 악의적인 출력으로 확장하며 보안 필터를 교묘히 우회한다. 이번 실험에서 연구팀은 설득 사이클 중 대화가 유해 목표로 진전되지 않는 ‘정체 상태’를 감지하는 추가 검사를 포함했다. 이런 경우에는 크레센도 기법을 활용해 최종 출력을 이끌어냈다. 알로바이드는 단 두 차례의 대화 전환만으로 결합 기법이 목표 응답을 끌어내는 데 성공했다고 밝혔다. 문맥 조작을 통한 안전 시스템 우회 이번 공격은 그록-4의 문맥 기억 기능을 악용해, 모델이 이전 대화에서 한 자신의 발언을 되돌려 들려주고 이를 통해 점진적으로 특정 목표로 유도하는 방식이다. 에코챔버와 크레센도를 결합한 우회 기법은 증오 발언 및 폭력성 테스트에서 90% 이상의 성공률을 기록한 바 있으며, 이 결합은 공격 벡터를 더욱 강력하게 만든다. 이 우회 기법에는 키워드 트리거나 직접적인 명령어가 포함되지 않기 때문에, 블랙리스트나 명시적 유해 탐지에 기반한 기존 보안 시스템은 무력화될 가능성이 크다. 알로바이드는 뉴럴트러스트의 실험 결과, 몰로토프 제조법 요청에 대한 성공률이 67%에 달했으며, 메스암페타민과 독극물 관련 주제에서도 각각 약 50%, 30%의 성공률을 기록했다고 밝혔다. 알로바이드는 “이번 실험은 중요한 보안 취약점을 보여준다”며 “이러한 공격은 명확히 유해한 입력 대신, 넓은 대화 맥락을 조작해 의도 기반 또는 키워드 기반 필터링을 우회할 수 있다”고 강조했다. 그는 또 “우리의 결과는 미묘하면서도 지속적인 조작이 예기치 않은 모델 반응을 유도할 수 있는 다중 회화 환경에서 LLM 보안 검증이 중요하다는 점을 보여준다”고 전했다. xAI는 이번 실험과 관련한 논평 요청에 즉각적인 답변을 내놓지 않았다. AI 비서와 클라우드 기반 대형 언어 모델이 주요 환경에서 빠르게 채택되는 가운데, 이처럼 다중 회차에 걸쳐 ‘속삭이듯’ 이뤄지는 공격은 가드레일 시스템의 심각한 결함을 드러낸다. 앞서도 MS의 ‘스켈레톤 키(Skeleton Key)’ 우회 기법, 수학 기반 우회 방식(MathPrompt), 문맥 오염(context poisoning) 공격 등이 확인되며, AI 특화형 방화벽 구축의 필요성이 꾸준히 제기되어 왔다. dl-ciokorea@foundryco.com ???? ???? ??? ??? IT ??? ???? ??? ????! ??? ??? ??? ?????. ????