"AI 편향성 막을 5만개 질문 데이터셋 마련"…네이버 AI랩 소장

윤상두 네이버클라우드 AI Lab 소장이 지난 11일 경기도 성남 네이버 1784에서 이데일리와 인터뷰를 하고 있다. (사진=네이버)

[이데일리 한광범 기자] “인공지능(AI)이 이용자들에게 만족스러운 답을 주면서 동시에 정치·종교 등 민감한 이슈는 건드리지 않도록 하는 그 적정선을 찾는 연구를 지속적으로 진행하고 있습니다.”

윤상두 네이버클라우드 AI Lab 소장은 지난 11일 경기도 성남에 위치한 네이버 1784에서 진행한 이데일리와의 인터뷰에서 AI의 편향성 문제 해소를 위한 네이버 차원의 노력에 대해 밝혔다.

AI가 발전하면서 AI의 편향성 우려는 더욱 커지는 상황이다. 종교나 인종, 정치성향 등에 대해 편향된 데이터를 학습한 경우 AI가 편향된 결론을 내놓게 돼 결과적으로 편향되거나 잘못된 정보가 더욱 확산할 수 있다는 비판이다.

◇“AI 할루시네이션(환각)과 창작능력은 연결돼 있어”

윤 소장은 “AI랩에선 AI 안전성 연구를 설립 초기부터 꾸준히 진행하고 있다”며 “AI가 사람에게 위해가 되는 질문을 받았을 때 답변을 회피하거나 ‘그 질문에 답을 할 수 없다’는 등의 답변 거절이 가능한 안전장치를 마련하는 연구들을 굉장히 중요하게 진행해 성과를 내고 있다”고 말했다.

앞서 AI랩은 AI의 편향성 문제를 완화하기 위해 종교, 도덕 등 분야에서의 민감한 질문 약 5만 개를 정한 후, 이에 대해 허용 가능한 답변과 적절하지 않은 답변으로 이뤄진 한국어 데이터셋을 마련했다. 해당 연구는 세계 최고 자연어처리 학회 중 한 곳인 전산언어학학회(ACL)에서 발표돼 주목을 받았다.

윤 소장은 “사전처리를 하지 않으면 AI는 잘못된 데이터라고 하더라도 그것을 통해 학습하고 답변을 하려고 한다”며 “안전장치는 민감한 주제들을 미리 정한 후 관련 질문이 들어왔을 때, ‘이런 정보가 있고 저런 정보가 있지만 나는 특정한 부분에 대해선 대답할 수 없고 판단은 네가 해야 한다’는 식의 답을 하게 한다”고 설명했다.

다만 AI에게 민감한 질문에 대한 답변을 회피하도록 하는 것은 양면성이 존재한다. 안전장치를 과도하게 걸 경우 AI가 ‘민감도’를 이유로 답변을 내놓지 않거나 소극적으로 답변하는 일이 더 많아질 가능성도 있다.

윤 소장은 “실제 안전장치가 너무 많은 경우 AI가 대답할 수 있는 질문이 크게 줄고, 그렇게 되면 이용자들은 ‘AI가 멍청해졌다’고 느끼게 될 것”이라며 “AI에게 완벽하고 안전한 답변만 하게 한다면 AI가 셀프 검열을 통해 대답 능력이 떨어질 수밖에 없다”고 지적했다.

◇“AI 편향성 안전장치 과도하면 멍청해졌다 느낄 수도”

때문에 네이버에선 이용자에게 충분한 정보를 주는 동시에 할루시네이션(환각) 등 거짓정보를 줄일 수 있는 최적정선을 찾는 연구를 중점적으로 진행하고 있다. 윤 소장은 “할루시네이션과 창작 능력은 연결돼 있다고 봐야 한다. 할루시네이션을 과도하게 막으면 창작력이 떨어질 수밖에 없다”며 “AI가 이용자의 질문 의도를 정확히 파악해, 정확히 자료에 의한 답변이나 창의적 내용이 가미된 답변 중 하나를 고를 수 있게 하는 연구를 하고 있다”고 밝혔다.

네이버 AI랩은 AI가 만들어낸 텍스트의 저작권 이슈를 해결하기 위한 연구도 진행하고 있다. 앞서 미국에서는 백악관 주도로 미국 생성AI 기업들이 AI 생성 콘텐츠에 이를 확인할 수 있는 워터마크를 삽입하는데 합의하고, 관련 기술 개발을 진행하고 있다.

네이버도 AI 생성 콘텐츠들의 저작권 이슈 등에 대비하기 위해 관련 연구를 진행해 왔다. 윤 소장은 “AI가 생성한 콘텐츠에 직접 워터마크를 심는 방식은 아니고, 생성된 콘텐츠 속 단어 조합에 대한 분석을 통해 AI 생성 콘텐츠 여부를 판단할 수 있다”며 “아직 초기 단계 연구지만 앞으로 해당 기술이 중요해질 것으로 보고 있다”고 했다.

네이버는 오는 24일 초대규모 AI인 하이퍼클로바X 공개를 앞두고 있다. 네이버는 당일 하이퍼클로바X 공개와 함께 대화형 AI 서비스 ‘클로바X’, 차세대 검색 서비스 큐(CUE:) 등도 소개하고, AI 윤리 정책도 함께 밝힐 예정이다.