에임인텔리전스가 LG전자와 오픈마인드와 협력한 첫 성과인 ‘비디오투로봇’을 26일 공개했다. 이 기술은 영상 속 인간의 동작을 로봇 학습 데이터로 변환하는 엔진으로, 낙상·충돌 등 위험 상황을 사전에 학습할 수 있도록 한다. 세 기업은 로봇이 실제 환경에서 겪을 수 있는 위험을 시뮬레이션 단계에서 검증해 안전성을 구조적으로 높이는 것을 목표로 협력하고 있다. 비디오투로봇은 인간과 근접 상호작용, 급경사 미끄러짐, 고하중 물체 조작 시의 균형 붕괴 등 현실에서 직접 연출하기 어려운 시나리오를 생성형 AI를 활용해 로봇 모션 데이터로 안전하게 변환한다. 고가의 장비 파손 우려와 안전 문제로 인해 실제 환경에서 반복 촬영이 불가능했으나, 이 기술을 활용하면 넘어지고 부딪히는 데이터를 직접 찍지 않고도 얻어낼 수 있다. 에임인텔리전스 관계자는 “앞으로 로봇이 실제 환경에서 마주할 다양한 돌발 상황을 선제적으로 학습하고 대비하는 ‘피지컬 AI 세이프티 프레임워크’를 구축해 나갈 것”이라고 말했다. 비디오투로봇은 단순한 도구가 아닌 피지컬 AI 세이프티를 향한 첫걸음이다.
에임인텔리전스는 로봇이 현실 세계에서 안전하게 작동할 수 있도록 학습 구조 단계부터 안전성을 설계하는 것을 목표로 하고 있다. 이 기술은 텍스트·오디오·비디오 등 멀티모달 연구 역량을 물리적 세계의 안전 문제로 확장한 점에서 의미가 있다. 비디오투로봇은 에임인텔리전스가 LG전자, 오픈마인드와 추진 중인 ‘피지컬 AI 세이프티’ 공동 연구의 첫 공개 성과다.
비디오투로봇은 영상 속 인간의 동작을 로봇 학습 데이터로 변환하는 엔진이다. 고가의 장비 파손 우려 없이도 추락·충돌 등 고위험 시나리오를 AI로 사전 학습시키는 이 기술은 공개 직후 글로벌 테크 업계의 폭발적인 호응을 얻고 있다. 이 기술이 공개되자 X(옛 트위터)와 링크드인 합산 조회수는 20만 회를 돌파했고, 개발자들의 성지라 불리는 깃허브에 올라왔다.
에임인텔리전스는 로봇이 현실 세계에서 안전하게 작동할 수 있도록 학습 구조 단계부터 안전성을 설계하는 것을 목표로 하고 있다. 비디오투로봇을 통해 연속 백덤블링과 같은 고난이도 모션 데이터를 수집·변환하는 실제 화면을 제공한다.
@Meerae AI 빅데이터 연구소 meerae.info@gmail.com
