|
기존의 비전-언어-행동(VLA) 모델들은 외부 명령 수행에는 능숙하지만 정작 물체 자체에 새겨진 조작 정보는 잘 활용하지 못한다는 한계가 있었다. 이에 오 교수팀은 물체 중심의 정보 파악 능력이 부족한 로봇 AI의 문제를 해결하기 위해 ‘현장 밀착형 지침 그라운딩(In-situ Guide Grounding)’이라는 과제를 공식화하고 이를 체계적으로 측정·검증할 수 있는 시뮬레이션 환경을 구축했다.
연구팀이 최신 비전-언어-행동(VLA) 모델을 분석한 결과 모델들이 물체 위의 시각 기호를 실제 물리적 행동 제약으로 연결하는 과정에서 뚜렷한 한계가 있음을 확인했다. 반면 동일한 지침을 언어 명령으로 변환해 입력했을 때는 성공률이 향상됐다. 아울러 연구팀은 실제 로봇(Real-world) 실험을 병행해 시뮬레이션상의 가이드 해석 오류가 실제 환경에서도 동일하게 발생한다는 점을 입증했다.
오 교수는 “이번 연구는 향후 외부 도움 없이 물체만 보고도 사용법을 깨닫는 일반 목적 로봇 구현의 초석이 될 것”이라고 말했다.





