code:068h
device:
close_button
X

“수십억 줘도 데이터 못 구해”… 생성형 AI 시대, 저작권 갈등 첨예

윤정훈 기자I 2025.04.21 18:20:04

챗GPT, 무차별 크롤링 학습으로 빠르게 성장
국내, 학습용 데이터 구하려 수개월간 공들여
기존 저작권법 틀 벗어나야
선학습 후배분’ 생태계 모색 필요
전문 데이터에 사용료 지불 당연
AII기업에 사회적 책임 요구해야

[이데일리 윤정훈 기자] “작년에 AI 학습용 출판물 데이터셋을 확보하기 위해 수십억원을 제시했지만, 결국 계약은 성사되지 않았습니다.”

생성형 AI 개발업체 관계자 A씨는 21일 이데일리와의 인터뷰에서 “서적 기반 학습 데이터는 존재하지만, 현실적인 가격 협의가 어려워 수급이 매우 어렵다”고 토로했다.

AI 업계는 초기 비용을 낮추고 수익을 공유하는 방식의 계약을 선호하지만, 저작권자들은 선지급 방식의 고액 계약을 요구하며 접점을 찾지 못하고 있다.

(그래픽=이데일리 김일환 기자)


정교해지는 글로벌 AI… 데이터조차 부족한 국내 현실

지브리풍 일러스트까지 구현하는 챗GPT, 제미나이(Gemini) 등 글로벌 생성형 AI가 날로 정교해지는 반면, 국내 AI 기업들은 여전히 ‘학습할 양질의 데이터’조차 확보하기 어려운 상황이다.

이영탁 SK텔레콤 성장지원실 부사장은 “AI 산업의 핵심은 크롤링 기반의 대규모 데이터 수집인데, 이마저도 비용 문제로 제약을 받는다”며 “사회적 합의가 필요한 부분”이라고 지적했다.

이러한 이유로 중소 AI 기업들은 웹 크롤링을 통한 텍스트·데이터 마이닝(TDM) 방식으로 학습을 시도하고 있으며, 일부 기업은 불법적으로 거래되는 데이터에 의존하는 사례도 발생하고 있다.

김명주 AI안전연구소장은 “전 세계 AI 기업들은 공공 목적의 ‘공정 이용(Fair Use)’ 논리에 기반해 데이터를 학습하고 있다”며 “챗GPT가 지브리풍 그림을 생성하는 것도 이 방식에 따른 결과”라고 설명했다. 하지만 “이 방식에 대한 국제적 가이드라인이 미비하고, 소송 사례도 늘고 있다”고 덧붙였다.

‘데이터 승낙’이 현실적이지 않은 이유… ‘옵트아웃’ 등 대안 제시

김 소장은 “모든 학습 데이터를 일일이 법적 승낙을 받아야 한다면 시간과 비용 모두 비현실적”이라며 “학습 후 수익을 공유하거나, 원작자가 원할 경우 사후적으로 데이터 사용을 거부할 수 있는 ‘옵트아웃’ 제도를 도입해야 한다”고 제안했다.

챗GPT와 구글 제미나이 등 미국의 생성형 AI는 TDM 방식으로 유명 작가의 문체나 애니메이션 스타일을 구현할 수 있다. 중국의 딥시크(DeepSeek)와 큐웬(Qwen, 알리바바)도 같은 방식으로 한국어까지 유창하게 구사한다.

그러나 국내에서는 TDM 학습 방식 자체를 ‘불법’으로 간주하는 움직임도 강하다. 대표적인 사례로, 네이버가 언론사 콘텐츠를 무단 활용해 AI 모델을 학습했다는 이유로 한국신문협회와 지상파 3사가 소송을 제기한 것이 대표적이다.

“헌혈 모델처럼 데이터 개방하고, 수익은 사회 환원해야”

이상욱 한양대 교수는 “기존 저작권법으로는 AI 연구자 모두가 잠재적인 위법 소지를 안고 있다”며 “전체 산업 발전을 고려할 때, 법 개정 없이 그대로 적용하는 것은 비현실적”이라고 지적했다.

이 교수는 또 “대부분의 데이터는 경제적 가치가 높지 않기 때문에 자유롭게 사용하도록 하고, 이를 기반으로 발생한 수익을 사회에 환원하는 ‘헌혈 모델’이 적절하다”며 “물론 작곡가 스타일이나 전문 콘텐츠에는 정당한 대가가 필요하다”고 강조했다.

다만, 전문 데이터셋 시장은 이미 활발하게 형성되고 있다. 데이터셋 제공 기업 셀렉트스타는 지난해 AI 기업과의 협업을 통해 10억원 이상의 매출을 기록했다.

김세엽 셀렉트스타 대표는 “챗GPT는 이미 인터넷의 대부분 데이터를 학습한 상태”라며 “이제는 인터넷에서 구할 수 없는 데이터의 가치가 부각되고 있다. 라이선스 보유자가 합리적인 가격으로 데이터를 제공하면 새로운 수익원이 될 수 있다”고 말했다.

책 한권에 75만원...중간 마진 커서 창작자 몫 15만원

AI 업계가 학습용 데이터를 구하기 어려운 데는 복잡한 출판 유통 구조 탓도 있다. 국내 중소형 출판사는 책을 전국적으로 배송하기 위해 중간 유통업자나 도매업자와 관계를 맺고 있다. 이에 AI 업체가 대규모 서적 학습데이터 계약을 맺기 위해서는 개별 출판사와 직접 연락하기보다는 연락망이 있는 도매업체인 웅진북센, 예스24, 북플러스와 협의를 하는 경우가 많다. 평균적으로 AI 학습용 도서 한 권은 75만원에 거래가 되는데 이 중에 △데이터 정제 가공비용 △중간유통업자 마진 등이 빠지면 출판사와 창작자에게 떨어지는 몫은 각각 15만원이다. 중대형 출판사들은 AI판매 담당자를 두고 새로운 수익 창출에 나서고 있지만, 여력이 안되는 대다수 영세 출판사는 도매업자에 의존할 수 밖에 없는 상황이다. 향후 출판 데이터 관련 시장이 형성된다면 중간 비용은 줄어들 것으로 보인다.

대한출판문화협회 관계자는 “AI 기업 입장에서는 수천 권의 데이터를 사야 하니 수십억원이 들 수 있지만, 작가 입장에서는 고작 15만원 받고 저작권을 넘기고 싶어하지 않는다”며 “의료·법률처럼 전문성이 높은 분야는 새로운 기회가 될 수 있지만, 일반 서적을 출간하는 중소 출판사는 법적 보호를 더욱 강하게 요구하고 있다”고 밝혔다.

AI 산업과 저작권 사이의 균형점은?

이상용 건국대 법학전문대학원 교수는 “생성형 AI는 과거 이모티콘 시장이 열렸듯이 새로운 창작 생태계를 열 가능성이 크다”며 “기존의 틀에 얽매이기보다는 창작자와 AI 개발사가 함께 성장할 수 있는 방향으로 제도 개선이 필요하다”고 제언했다.

AI 산업이 빠르게 성장하고 있지만, 학습데이터 수급과 저작권 보호 사이의 갈등은 여전히 평행선을 달리고 있다. 법적·정책적 사회적 합의없이는 AI 기술 발전도, 창작자의 권리 보호도 모두 어려운 상황이 계속될 것으로 보인다.

주요 뉴스

ⓒ종합 경제정보 미디어 이데일리 - 상업적 무단전재 & 재배포 금지

Not Authorized