서치GPT 출시 앞둔 네이버, 이미 5년 전 AI 위해 약관 바꿨다

서치GPT 프로젝트에 대해 설명 중인 김용범 네이버 서치US 치프 사이언티스.(사진=네이버 제공)

[이데일리 함정선 기자] 상반기 ‘챗GPT’ 대항마로 검색 기반 인공지능(AI) 서비스인 ‘서치GPT’를 선보일 네이버는 해외에서 진행 중인 ‘지식재산권’ 위반 소송과 논란에선 비교적 자유로울 전망이다.

네이버의 핵심 데이터로 손꼽히는 블로그나 카페 등 콘텐츠에 대해 이미 5년 전 약관을 변경, 인공지능(AI) 개발에 활용할 수 있도록 사용자들로부터 동의를 받았기 때문이다.

4일 네이버에 따르면 지난 2018년 네이버는 AI 분야에 콘텐츠를 활용할 수 있다는 내용을 약관에 포함했다. 현재 약관에는 ‘사용자가 제공한 콘텐츠를 인공지능 분야 기술 연구 등의 연구 개발 목적으로 네이버 및 네이버 계열사에서 사용할 수 있다’는 내용이 담겼다.

이는 AI 서비스인 서치GPT가 블로그나 카페 등의 콘텐츠를 데이터로 삼아 학습할 수 있다는 뜻이다.

한국어 서비스를 강점으로, 한국어 관련 정보 제공을 차별화 요소로 내세우고 있는 서치GPT는 무엇보다 기반이 되는 초거대AI ‘하이퍼클로바’의 학습데이터 분량이 중요하다.

네이버가 공개한 자료에 따르면 하이퍼클로바의 학습 데이터 중 네이버 블로그 데이터는 전체의 절반 가까이에 이를 정도로 핵심이다. 카페까지 더하면 절반을 훌쩍 넘는다. 만약 네이버 블로그와 카페 등 사용자들이 지식재산권 등을 문제 삼을 경우 네이버로서는 곤란한 상황에 처할수 밖에 없다.

이미 해외에선 마이크로소프트(MS)의 소스코드 생성AI인 ‘깃허브 코파일럿’의 사용자들이 지난해 11월 MS를 상대로 집단소송을 제기하는 등 학습데이터의 지식재산권부터가 논란이 되고 있다.

깃허브 코파일럿은 개발 코드 일부를 작성하면, 이를 자동 완성해주는 AI 서비스다. MS가 2018년 인수한 오픈소스 사이트 깃허브에 AI 기술을 접목해 만들었다. 그러나 깃허브 사용자들은 그간 자신들이 깃허브에 공유한 소스코드를 AI가 동의 없이 학습한 점을 문제 삼아 손해배상을 요구하고 있다.

국내 전문가들은 깃허브의 경우 약관에 사용자들이 게재한 소스코드, 즉 콘텐츠를 AI의 학습에 활용하겠다는 내용을 담지 않았기 때문에 결론이 MS에 불리할 수 있다고 보고 있다.

이철남 충남대 교수는 “네이버 블로그 등에 글을 쓸 때 약관에 의해 그것을 인공지능 개발 등에 이용할 수 있도록 동의를 하고 있고, 네이버가 약관으로 이것을 활용하고 있다”며 “깃허브의 경우 이 같은 약관이 없다 보니 소송에서 약관 규정 위반이라는 것이 쟁점이 되고 있다”고 설명했다.