생성형AI 누가 잘하나…카카오, 한국어 버전 '평가툴' 오픈소스 공개

[이데일리 최정희 기자] 카카오가 언어모델(LM)을 기반으로 한 생성형 인공지능(AI)의 검색 등 외부 도구를 연결하는 기술을 성과 평가할 수 있는 툴을 27일 공개했다. 오픈소스 형식이라 누구나 접근해서 이용할 수 있다.

카카오는 언어모델을 기반으로 한 AI의 검색 엔진 등 외부 도구를 연결하는 ‘펑션콜(Function Call)’ 기술 성능을 평가할 수 있는 한국어 데이터셋을 처음으로 구축했다고 밝혔다. 일명 ‘펑션챗-벤치(Bench)’로 AI의 펑션콜 기능의 벤치마크를 만들고 이를 토대로 해당 기능의 성능을 평가할 수 있게 된다.

마이크로소프트(MS) 등에서도 비슷한 기능을 구축했으나 모두 영어를 기반이었다. 이번에 카카오의 ‘펑션콜-벤치’는 한국어를 기반으로 하고 있다. 카카오는 해당 데이터셋을 오픈소스 커뮤니티 깃허브(GitHub)에 공개했다.

펑션챗-벤치(Bench)는 △함수 이름과 인자 추출의 정확성 △함수 호출 결과 전달의 정확성 △누락 정보 인지를 통한 추가 질의 발생 여부 △호출 가능한 함수와 관련성 감지 등을 평가 기준 항목으로 구성하고 있다.

카카오 관계자는 “타사의 데이터셋이 주로 언어 모델의 정확한 함수 호출 메시지 생성 중심으로만 구축된 것에 비해 카카오가 구축한 이번 데이터셋은 함수 호출 전후에 요구되는 사용자와의 적절한 상호 작용 메시지 생성 능력까지 평가 영역으로 포함했다는 점에서 차별성을 갖는다”고 밝혔다. 향후 데이터셋의 규모를 늘리고 영어 버전을 추가하는 등 사용성을 지속적으로 확장한다는 방침이다.

김병학 카카오 카나나 알파 성과리더는 “이번 펑션챗-벤치는 데이터셋 구축 및 오픈소스 공개는 한국어 기반의 국내 AI기술 생태계에 기여할 수 있는 의미를 지닌다”며 “펑션콜 기술의 성능 평가를 토대로 처음으로 마련한 만큼 꾸준히 데이터셋의 활용성을 높여가기 위해 노력할 계획”이라고 밝혔다.