앤스로픽, '클로드 소넷 5' 출시…오퍼스급 성능에 가격은 대폭 낮춰

앤스로픽. (로이터=연합뉴스)

[이데일리 한광범 기자] 앤스로픽(Anthropic)이 1일 자사 AI 모델 제품군인 ‘소넷(Sonnet)’ 시리즈 중 현재까지 가장 강력한 에이전트(Agentic) 기능을 갖춘 차세대 모델 ‘클로드 소넷 5(Claude Sonnet 5)’를 출시했다.

앤스로픽의 클로드 제품군은 성능과 크기에 따라 하이쿠(Haiku), 소넷(Sonnet), 오퍼스(Opus) 순으로 구성되어 있다. 중간 등급인 소넷 시리즈는 개발자들에게 코딩과 도구 사용 분야에서 뛰어난 역량을 보여주며 ‘에이전트형 AI 시대’의 서막을 연 핵심 모델로 평가받는다. 이번에 공개된 소넷 5는 성능을 최상위 등급인 오퍼스 수준으로 끌어올리면서도 가격 경쟁력을 유지한 것이 특징이다.

소넷 5는 스스로 계획을 세우고 브라우저와 터미널 등의 도구를 활용해 자율적으로 작업을 수행할 수 있는 모델이다. 불과 몇 달 전까지만 해도 더 크고 비용이 많이 드는 모델에서만 가능했던 수준의 자율성을 구현했다. 추론과 도구 사용, 코딩, 지식 업무 등 에이전트 성능의 핵심 영역에서 전작인 ‘클로드 소넷 4.6’ 대비 뚜렷한 향상을 이뤄냈으며, 상위 모델인 ‘클로드 오퍼스 4.8’ 성능에 근접하면서도 비용은 낮췄다.

실제 주요 벤치마크 평가에서도 성능 향상이 확인된다. 에이전트 코딩 능력을 평가하는 ‘SWE-벤치 프로(SWE-bench Pro)’에서 소넷 5는 63.2%를 기록해 소넷 4.6(58.1%)을 앞섰으며, ‘터미널-벤치 21(Terminal-Bench 21)’에서는 80.4%를 기록해 전작(67.0%)보다 크게 개선된 수치를 보였다. 컴퓨터 사용 능력을 측정하는 ‘OS월드-검증(OSWorld-Verified)’에서도 81.2%를 기록해 오퍼스 4.8(83.4%)에 육박하는 성적을 냈다.

앤스로픽 측은 사용자가 작업에 들이는 노력 수준(Effort level)을 조절함에 따라 소넷 5가 오퍼스 4.8과 대등한 성능을 낼 수도 있어, 비용과 성능 사이에서 최적의 균형을 찾을 수 있다고 설명했다. 얼리 액세스(Early access) 파트너들의 피드백에 따르면, 소넷 5는 이전 소넷 모델이 중간에 멈추던 복잡한 과제를 끝까지 완수하는 능력이 두드러진다. 특히 별도의 요청이 없어도 스스로 결과물을 검증하는 등 매력적인 가격대에서 고도의 자율적 처리를 해내는 모습을 보였다. 안전성 측면도 강화됐다. 악의적인 요청을 거부하거나 프롬프트 인젝션(Prompt injection) 공격을 방어하는 능력이 향상됐으며, 환각(Hallucination) 현상이나 아첨(Sycophancy) 행동 비율도 전작보다 낮아졌다.

다만 잠재적으로 위험한 사이버 보안 능력을 테스트하는 평가에서는 오퍼스 모델보다 크게 떨어지는 것으로 나타났다. 파이어폭스 147(Firefox 147) 브라우저의 취약점 공격(Exploit) 개발 테스트에서 소넷 5는 완전히 작동하는 공격 코드를 만들지 못했으며(0.0%), 전작보다 약간 높은 부분적 성공률(13.2%)을 보였다. 앤스로픽은 소넷 5의 일반 지능이 향상됨에 따라 실시간으로 위험한 사이버 작업을 차단하는 보안 장치를 기본적으로 활성화해 출시했다고 밝혔다.

클로드 소넷 5는 출시 당일부터 모든 플랜에 적용된다. 무료(Free) 플랜과 프로(Pro) 플랜의 기본 모델로 지정됐으며, 맥스(Max), 팀(Team), 엔터프라이즈(Enterprise) 사용자도 이용이 가능하다.