"AI 목소리 골라 타이핑하면 더빙 뚝딱"[인사이드 네이버]

김국배 기자I 2022.11.14 14:13:33

김재민 네이버 클로바보이스 책임리더 인터뷰
"일반인 목소리로 150개 AI 보이스 만들어"
이달 '클로바더빙'에 '보이스 프로' 기능 적용…감정 등 직접 조절
"내년엔 아바타도 활용할 수 있게"
"올해만 20여편 논문 발표, 구글에도 안 밀려"

김재민 네이버 클로바보이스 책임리더


[이데일리 김국배 기자] 책을 소개하는 유튜브 채널을 시작하려는 A씨. 막상 동영상에 내 목소리로 녹음했더니 어색하게 들린다. 고민하던 차에, A씨가 발견한 건 인공지능(AI) 보이스였다. 사용법도 간단했다. ‘멘트’를 입력하고 원하는 AI 보이스를 선택하니 꽤 자연스러운 목소리로 더빙 작업이 완료됐다.

네이버(035420)가 누구나 쉽게 동영상에 목소리를 입힐 수 있게 도와주는 서비스(클로바더빙)로 ‘AI 더빙 시대’를 열고 있다. 최근 네이버 제2사옥 ‘1784’에서 만난 김재민 네이버 클로바보이스 책임리더는 “이달 중 ‘클로바더빙’ 기업용 유료 버전에 ‘클로바 보이스 프로’ 기능을 새로 적용할 예정”이라고 말했다. 네이버가 선보일 ‘클로바 보이스 프로’는 사용자가 직접 AI 보이스의 감정이나 말하는 속도 등을 조절할 수 있는 서비스다. 하나의 목소리에서 상담원, 내레이션 등 다양한 스타일도 선택할 수 있을 전망이다.

그는 “내년엔 클로바더빙에서 텍스트에 맞는 동작을 하는 아바타도 활용할 수 있게 해보려고 한다”며 “단기적으로, 중장기적으로도 ‘인간 같은 목소리’를 만들어 내는 게 우리의 목표”라고 말했다.

동영상 콘텐츠 수요는 폭증하고 있다. 하지만, 개인은 물론 기업도 모든 콘텐츠에 전문 성우의 목소리나 내레이션(Narration)을 넣기는 쉽지 않다. 이에 네이버는 웹으로 제공하던 클로바더빙 서비스를 지난 6월 앱으로 내놓으며 이용자들이 내 콘텐츠에 맞는 AI 보이스를 더 쉽게 찾을 수 있게 돕고 있다. 앱 내 ‘보이스 메이커’ 메뉴는 내 목소리(이용자 목소리)로 AI 보이스를 만들 수 있게 해준다. 한국어뿐만 아니라 영어, 일본어, 중국어, 대만어, 스페인어 등 6개 언어를 지원한다.

김 책임리더는 “150여 개의 AI 보이스를 보이스 메이커를 통해 만들었다”며 “이중엔 클로바더빙에서 제공하는 보이스 중 상위 10% 내에 드는 사용량과 선호도를 가진 목소리도 있을 만큼 기술적 완성도가 높아졌다”고 했다. 네이버는 현재 진행 중인 ‘엄마의 목소리를 부탁해’라는 캠페인을 통해 더 다양한 스타일의 목소리를 추가할 예정이다. 가족의 목소리를 AI 목소리로 만들어주는 이 캠페인에는 300여 명이 지원했다.

[이데일리 문승용 기자]


AI 음성합성 기술은 완벽하진 않지만 빠르게 개선되고 있다. 네이버의 클로바 보이스 기술은 ‘일상 공간에서 스마트폰 전용 앱을 이용해 400개 문장만 녹음하면 본인만의 AI 보이스를 만들 수 있는 수준’이다. 초창기에 비하면 문장이 500분의 1로 줄었다. 김 책임리더는 “데이터의 양은 줄이려면 더 줄일 수 있지만 ‘다다익선’”이라고 말했다. 문장을 더 받을 수 있다면 품질을 위해 구태여 안 받을 필요가 없다는 것이다. 그는 “다양한 언어, 화자, 스타일, 감성을 음성합성으로 구현하기 위해선 그에 상응한 음성 데이터가 필요하다”고 강조했다.

네이버에선 뉴스 본문 듣기 서비스를 시작으로 네이버 지도, 파파고, 오디오클립, 케어콜 등 20여 개 이상의 서비스에서 음성합성 기술을 활용 중이다. 그는 “네이버에서 음성이 나오는 서비스 대부분에 클로바보이스 기술을 활용하고 있다”고 전했다. 네이버와 라인은 올해만 세계 최고 권위 음성 AI 학회 ‘인터스피치’와 ‘ICASSP’에서 각각 12편, 10편의 논문을 발표했다.

가상인간에 생명력을 불어넣기도 한다. 네이버는 가상인간 광고모델 ‘로지’에 목소리를 만들어주기도 했다. 로지는 싸이더스스튜디오엑스가 선보인 국내 최초의 가상 인플루언서다.

신한라이프 광고에 나오는 ‘로지’ 사진=이데일리DB


김 책임리더는 “구글, 카카오와 비교해도 한국어, 일본어, 영어 등 주요 언어에 대한 음성합성 기술력과 성능은 동등하거나 우위에 있다”고 했다. 그러면서 “2019년 구글이 미국 팝스타 존 레전드의 목소리로 AI 보이스를 만들어 구글 어시스턴트 서비스에 적용했는데, 극히 제한된 질문에만 답하는 정도였다”며 “네이버가 2018년 4시간의 녹음만으로 배우 유인나 씨의 목소리를 AI 보이스로 만들어 스마트 스피커와 내비게이션 안내의 전체 시나리오 발화에 적용한 것이 좋은 예”라고 했다.

주요 뉴스

ⓒ종합 경제정보 미디어 이데일리 - 상업적 무단전재 & 재배포 금지