요즘 다음 연구 방향으로 VLA 기반 Memory System을 진지하게 고민하고 있다. 최근 들어 관련 벤치마크들이 하나둘 등장하고 있고, 기존 baseline들의 성능도 아직 낮은 수준에 머물러 있다. 이는 곧, 이 분야가 충분히 개척되지 않았고 새로운 접근이 성과로 이어질 가능성이 크다는 의미로 보인다.
long-horizon task를 생각해보면, 로봇이 단순히 현재 observation만으로 의사결정을 내리는 것은 근본적인 한계가 있다. 예를 들어, 사람이 먼저 빨래를 개는 시범을 보여주고 이를 로봇이 따라하는 상황을 가정해보면, 현재 시점의 정보만으로는 작업을 수행하기 어렵다. 이러한 문제를 해결하기 위해서는 과거의 상태와 행동을 지속적으로 축적하고 활용할 수 있는 temporal memory가 필수적이다.
최근에 RoboMME가 memory를 요구하는 다양한 태스크를 체계적으로 구성한 벤치마크를 제안했다. 마음에 드는 점은 시뮬레이션을 넘어 실제 환경에서도 동일한 태스크를 검증했다는 것이다. 또한, 현재 존재하는 모델들 중 모든 task에서 일관되게 좋은 성능을 보이는 모델이 없다는 점도 매우 인상적이다. 따라서, 효과적인 memory-aware VLA 모델을 설계해 해당 벤치마크의 모든 task에서 SOTA를 달성한다면, 이를 기반으로 많은 citation을 확보할 수 있을지도 모른다.
https://arxiv.org/abs/2603.04639
RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies
Memory is critical for long-horizon and history-dependent robotic manipulation. Such tasks often involve counting repeated actions or manipulating objects that become temporarily occluded. Recent vision-language-action (VLA) models have begun to incorporat
arxiv.org