“로봇 AI, 물체 지침 보고 행동할 수 있나”…한양대, 평가기준 개발

[이데일리 김응열 기자] 한양대 연구팀이 로봇 인공지능(AI)이 물체에 표시된 조작 안내를 실제 행동으로 연결할 수 있는지 평가하는 벤치마크를 정립했다.

(왼쪽부터)한양대 융합전자공학부의 오윤선 교수, 김선호 박사과정생. (사진=한양대)

한양대는 융합전자공학부의 오윤선 교수 연구팀이 로봇이 일상 환경에서 물체에 부착된 시각적 지침(In-situ Guides)을 스스로 해석해 동작에 반영하기 위한 평가 벤치마크 ‘INSIGHT Bench’를 정립했다고 29일 밝혔다.

기존의 비전-언어-행동(VLA) 모델들은 외부 명령 수행에는 능숙하지만 정작 물체 자체에 새겨진 조작 정보는 잘 활용하지 못한다는 한계가 있었다. 이에 오 교수팀은 물체 중심의 정보 파악 능력이 부족한 로봇 AI의 문제를 해결하기 위해 ‘현장 밀착형 지침 그라운딩(In-situ Guide Grounding)’이라는 과제를 공식화하고 이를 체계적으로 측정·검증할 수 있는 시뮬레이션 환경을 구축했다.

연구팀이 최신 비전-언어-행동(VLA) 모델을 분석한 결과 모델들이 물체 위의 시각 기호를 실제 물리적 행동 제약으로 연결하는 과정에서 뚜렷한 한계가 있음을 확인했다. 반면 동일한 지침을 언어 명령으로 변환해 입력했을 때는 성공률이 향상됐다. 아울러 연구팀은 실제 로봇(Real-world) 실험을 병행해 시뮬레이션상의 가이드 해석 오류가 실제 환경에서도 동일하게 발생한다는 점을 입증했다.

오 교수는 “이번 연구는 향후 외부 도움 없이 물체만 보고도 사용법을 깨닫는 일반 목적 로봇 구현의 초석이 될 것”이라고 말했다.