|
[이데일리 김세연 기자] “나도 꼭 한번 이야기하고 싶었소. 내가 거사에 사용했던 폭탄은 물병 폭탄이었소.”
누렇게 빛바랜 태극기 앞으로 멀끔한 갈색 양복을 입은 윤봉길 의사가 등장한다. 실제 거사에 도시락 폭탄을 사용했느냐는 한 여성의 질문에 도시락 폭탄을 챙기긴 했으나 거사 실패 시 자결용으로 챙겼다고 설명하는 그. 인공지능(AI) 영상 합성 전문 기업 딥브레인AI가 재현한 ‘AI 윤봉길’이다.
◇사진 1장으로 재현…“사람마다 비슷한 공통 입 모양 학습한 덕”
AI 윤봉길의 특징의 2가지 특징은 첫째 입 모양이 자연스럽다는 것, 두번째로는 사진 단 1장으로 재현했다는 것이다. 이 두 개를 모두 가능케 한 것은 실제 영상과 AI 합성 영상을 꾸준히 누적 학습해 사람들이 말할 때 드러나는 ‘공통 입 모양’을 발견했다는 것이다.
AI로 가상 영상을 만들어 마치 진짜 사람이 말하는 것처럼 보이게 하는 AI 휴먼 기술은 얼마나 자연스럽게 얼굴 근육 움직임을 재현하느냐가 핵심이다. 특히 입 모양이 부자연스러우면 어설프게 인간을 닮을수록 괜한 불쾌감을 주는 ‘불쾌한 골짜기’가 발생하기 일쑤다.
딥브레인AI는 2016년 설립 당시부터 영상 합성 기술을 축적해 사람들이 각 모음과 자음을 발음할 때 입 모양과 얼굴 근육이 어떻게 달라지는지 분석했다. ‘ㅏ’를 발음할 때 입이 벌어진다는 등 공통으로 보이는 패턴을 찾아냈고, 이 패턴을 적용하면 고작 사진 1장만으로도 AI 영상을 생성할 수 있게 됐다. 공통 원리를 적용해 매우 적은 학습데이터로도 영상을 생성하는 일명 ‘제로샷’ 기술이다.
공통된 입 모양 외에 개인마다 달라지는 입 모양은 10초가량의 음성 파일로 해결했다. 딥브레인AI는 음성 파일을 분석해 사람마다 미세하게 다른 발음 특성을 분석한다. 이 개인별 특징을 공통 입 모양 알고리즘에 추가 적용해 입 모양과 얼굴 근육을 생성하는 알고리즘을 최종적으로 완성한다. 윤봉길 의사의 음성 파일은 확보하지 못해 이미지에 맞는 성우를 섭외한 후 성우의 음성 파일을 기반으로 AI 윤봉길을 만들었다.
◇실시간 대화까지 가능한 AI 휴먼…탐지 기술까지 동시 개발
딥브레인AI가 생성하는 AI 영상은 윤봉길 의사뿐만이 아니다. 사진 1장과 10초가량의 음성파일로 고인을 추억할 수 있는 영상을 만들어주는 ‘리메모리’, 주문자와 실시간 대화가 가능한 ‘AI 키오스크’ 등 범위는 다양하다.
다양한 모델의 공통적인 장점은 특정 질문을 던지면 실시간으로 답변할 수 있다는 것. AI 휴먼이 사람과 실시간 대화를 하려면 대화를 이해하는 건 물론이고 그에 따른 답변을 영상 데이터로 반환하는 과정까지 거쳐야 한다. 2016년 설립 이후 꾸준히 데이터를 축적한 덕에 이제는 실시간으로 데이터 변환이 가능한 수준이라는 게 회사 측 설명이다.
딥페이크 탐지 설루션은 딥브레인AI가 가지고 있는 AI 합성 영상과 진짜 영상을 누적 학습시킨 후 딥페이크 영상의 루틴을 찾아낸다. 딥페이크 여부를 확인하고 싶은 영상이 이 루틴과 얼마나 일치하는지 비교하고 딥페이크일 가능성을 반환하는 게 딥페이크 자동탐지 설루션 원리다. 확인하고 싶은 영상을 입력하면 “딥페이크 영상일 가능성이 85% 수준이다”고 답변하는 식이다.
장 대표는 “영상을 합성하는 원천 기술을 자체적으로 보유한 덕에 빠르고 디테일한 영상을 극소량의 데이터로도 합성할 수 있다”며 “AI 영상 합성 기술을 발전시키는 만큼 이를 탐지하는 기술도 맞춰서 계속 발전시키고 있다”고 설명했다.
|