너무 강력해서 공개 못한 '미토스' 안전 장치 달고 일반에 공개

[이데일리 김겨레 기자] 앤스로픽이 기업공개(IPO)를 앞두고 최고 성능 인공지능(AI) 모델 ‘미토스’에 안전 장치를 적용한 뒤 일반에 공개했다. 해킹이나 생화학 무기 등 악용이 우려되는 분야에 대해서만 하위 단계 모델이 답변하도록 설계한 것이다. 앤스로픽은 이번 모델이 현존하는 가장 강력하면서도 안전한 모델이라고 주장했다.

앤스로픽. (사진=AFP)

월스트리트저널(WSJ) 등 외신에 따르면 앤스로픽은 최상위급 AI 모델 ‘클로드 미토스5’와 함께 안전 장치를 적용한 ‘클로드 페이블5’를 9일(현지시간) 출시했다. 앤스로픽은 “페이블5는 우리가 지금까지 일반에 공개했던 어떤 모델보다 뛰어나다”고 밝혔다.

페이블5는 악용 위험이 큰 분야에 안전 장치를 적용했다. 페이블5는 사이버 보안 분야나 생화학 무기 등의 대한 질의(프롬프트)를 받으면 안전한 답변을 위해 아래 단계 모델인 ‘오퍼스4.8’이 대신 처리하도록 했다. 경쟁 AI 모델의 기능을 추출하는 이른바 무단 ‘증류’로 의심되는 질의를 받았을 경우에도 안전 장치가 작동한다.

사용자가 페이블5를 속여 앤스로픽의 안전 장치를 우회해 답변을 얻는 ‘탈옥’을 시도할 수도 있지만, 앤스로픽은 탈옥이 불가능하도록 1000시간 이상의 광범위한 테스트를 했다. 앤스로픽은 “우리의 최우선 과제는 지나치게 광범위한 안전장치를 마련하는 한이 있더라도 페이블5를 최대한 안전하게 출시하는 것”이라며 “페이블5는 기존 모델보다 ‘탈옥’에 대한 저항력이 훨씬 높다”고 설명했다.

앤스로픽에 따르면 사이버보안 등의 분야를 제외하면 페이블5와 미토스5는 사실상 동일한 모델이다. 종종 악의적 의도가 없는 질문을 오인해 오퍼스가 처리하는 경우도 있지만, 평균 5% 미만의 확률이다. 이번 새 모델은 지난 4월 제한적으로 공개만으로도 파장을 일으켰던 ‘미토스 미리보기’보다도 더 뛰어난 성능지표(벤치마크)를 기록했다.

앤스로픽은 일부 영역에서 안전 장치가 해제된 미토스5를 미 행정부와 협력 하에 보안 협의체 ‘프로젝트 글래스윙’을 통해 검증된 200여곳의 기관에만 선별적으로 제공한다. 한국에서는 삼성전자(005930)와 SK하이닉스(000660), SK텔레콤(017670), 한국인터넷진흥원(KISA) 등이 프로젝트 글래스윙에 참여한다.

앤스로픽이 가장 강력한 고성능 AI 모델을 일반에 공개한 것은 IPO를 앞두고 9560억달러(1460조원)에 달하는 기업가치를 증명하기 위한 의도로 풀이된다. 페이블5의 이용료는 토큰 기준 오퍼스 4.8 이용료의 두 배로 높아 매출을 끌어올릴 수 있다는 분석이다.