AI 논문리뷰 - Vision for Robotics

What is the standard approach for using a pre-trained vision encoder as input to a policy network?

study_love 2026. 3. 26. 17:21

Introduction

<Fig 1. Agent Architecture>

 

 오늘은 최근 내가 가장 흥미롭게 고민하고 있는 문제를 다루고자 한다. 핵심 질문은 로봇의 policy network에 시각 정보를 어떻게 제공하는 것이 사실상의 표준적인(go-to) 해결책인가에 대한 것이다.

 만약 계산 자원과 시간에 제약이 없다면, 최근의 Vision-Language-Action (VLA) 접근에서처럼 DINOv2와 같은 사전학습된 비전 인코더의 patch-level representation을 별도의 압축 없이 그대로 사용하는 방식이 사실상의 go-to solution으로 자리잡고 있다. 

 하지만 현실적인 환경에서는 계산량과 추론 시간이 중요한 제약으로 작용한다. 그렇다면 이러한 제약이 존재하는 상황에서의 go-to solution은 무엇일까? 

 연구에서는 종종 가장 극단적인 설정을 가정해 문제를 단순화하고, 이후 보다 완화된 조건에서의 적용은 엔지니어링 영역에 맡기는 경우가 많다. 이러한 관점에서, 모든 시각 정보를 단 하나의 토큰에 압축해야 하는 극단적인 상황을 가정해볼 수 있다. 본 글에서는 이와 같은 설정에서 어떤 표현이 go-to solution으로 작동할 수 있는지에 대해 살펴본다.

A) 사전학습된 비전 인코더의 CLS token 사용하기

 가장 직관적인 접근은 사전학습된 비전 인코더의 CLS token을 policy network의 입력으로 사용하는 것이다. CLS token은 일반적으로 이미지 전체에 대한 전역 정보를 요약하는 표현으로 간주되어 왔기 때문이다.

 그러나 DINOv2MAE와 같은 기존 모델들은 주로 patch-level representation 학습에 초점을 둔 objective로 설계되어 있다. 이로 인해 CLS token이 장면 전체의 구성을 효과적으로 압축하도록 명시적으로 학습되지 않는다. 실제로 이러한 모델들의 CLS token을 그대로 사용할 경우, 로보틱스 downstream task에서 성능이 크게 저하되는 경향이 관찰된다.

 

 이는 CLS token이 객체의 위치와 같은 spatial 정보나 세밀한 장면 정보를 충분히 보존하지 못하기 때문으로 해석할 수 있다. 즉, 단순한 전역 요약(global summary)만으로는 정책 학습에 필요한 정보를 충분히 전달하기 어렵다.

 이러한 한계를 극복하기 위해, 최근에는 CLS token이 장면의 구성 정보를 효과적으로 압축하도록 유도하는 pre-training 방법들이 제안되고 있다. 예를 들어, ToBo는 reconstruction objective를 통해 CLS token이 전체 장면 정보를 압축하도록 유도하는 구조를 처음으로 제안하였다. CroBo는 이를 확장하여, CLS token이 객체의 정체성과 위치 정보를 함께 보존하도록 설계된 학습 구조를 도입하였다. 이러한 접근은 DINOv2나 MAE와 같은 기존 vision encoder 대비 로보틱스 downstream task에서 더 우수한 성능을 보이며, 다양한 벤치마크에서 state-of-the-art 결과를 달성한다.

https://arxiv.org/abs/2507.06543

 

Token Bottleneck: One Token to Remember Dynamics

Deriving compact and temporally aware visual representations from dynamic scenes is essential for successful execution of sequential scene understanding tasks such as visual tracking and robotic manipulation. In this paper, we introduce Token Bottleneck (T

arxiv.org

https://arxiv.org/abs/2603.13904

 

Pixel-level Scene Understanding in One Token: Visual States Need What-is-Where Composition

For robotic agents operating in dynamic environments, learning visual state representations from streaming video observations is essential for sequential decision making. Recent self-supervised learning methods have shown strong transferability across visi

arxiv.org

B) Global Average Pooling over Patch Representations

 또 다른 단순하면서도 널리 사용되는 접근은 patch-level representation에 대해 global average pooling을 적용하여 하나의 벡터로 집계한 뒤, 이를 policy network의 입력으로 사용하는 것이다. 

 그러나 global average pooling은 공간적인 구조를 평균화하는 과정에서 객체의 위치 정보와 장면 내 구성 관계를 크게 훼손한다는 한계를 가진다. 특히 로보틱스와 같이 객체의 정확한 위치와 상호 관계가 중요한 환경에서는, 이러한 공간 정보의 손실이 정책 성능 저하로 직결될 수 있다.

 결과적으로, global average pooling은 전체적인 시각 정보를 요약하는 데에는 효과적일 수 있으나, 정책 학습에 필요한 정보를 충분히 보존하지 못한다는 점에서 근본적인 한계를 가진다. 

C) Patch-wise Dimension Reduction and Concatenation

 또 다른 접근으로는, patch representation을 patch-wise하게 저차원으로 압축한 뒤, 이를 concat하여 하나의 벡터로 구성하는 방법을 고려할 수 있다. 이때 각 patch를 저차원 공간으로 투영하기 위해 PCA와 같은 전통적인 차원 축소 기법을 사용할 수도 있고, learning-based compression layer를 활용할 수도 있다.

 예를 들어, OVRL-v2는 [1×1 convolution layer를 사용하여 patch-level representation의 차원을 축소하고, 이후 축소된 patch representation들을 concat하여 하나의 벡터로 구성하는] compression layer를 vision encoder와 policy network 사이에 삽입한다. 이 layer는 imitation learning 또는 RL 과정에서 policy network와 함께 학습된다.

 이러한 접근은 단순한 pooling과 달리 각 patch의 정보를 개별적으로 유지할 수 있어 spatial information을 보존할 수 있다는 장점이 있다. 하지만, imitation learning에서 사용할 수 있는 데이터가 제한적인 경우에는 compression layer가 쉽게 overfitting되어,  visual representation의 일반화 성능을 저하시킬 수 있다는 단점도 존재한다. 즉, compression layer가 학습 데이터의 image distribution에 과도하게 적응되어, 해당 분포에서만 효과적으로 동작하는 방식으로 학습될 수 있다. 이 경우, 학습 시 관찰하지 못한 OOD 환경에서는 중요한 시각 정보를 충분히 보존하지 못해 visual representation의 품질이 저하될 수 있으며, 그 결과 이 표현에 의존하는 downstream agent의 성능 역시 함께 감소할 수 있다.

https://arxiv.org/abs/2303.07798

 

OVRL-V2: A simple state-of-art baseline for ImageNav and ObjectNav

We present a single neural network architecture composed of task-agnostic components (ViTs, convolutions, and LSTMs) that achieves state-of-art results on both the ImageNav ("go to location in <this picture>") and ObjectNav ("find a chair") tasks without a

arxiv.org

Identifying the Go-to Solution

 go-to solution을 탐색하기 위해서는, 여러 비전 인코더에 대해 앞서 소개한 A~C 방법 등 다양한 방법을 적용해보고, 그 중 최적의 (vision encoder, method) 조합을 찾는 접근이 바람직할 것이다. 

 이러한 관점에서 CroBo는 CLS token을 사용한다는 가정 내에서 SOTA를 보여주었지만, 다른 모델과의 비교 설정이 CLS token 기반 입력으로 제한되어 있었다는 점에서 아쉬움이 남는다. 특히 DINOv2와 같은 강력한 사전학습 모델과 비교할 때, 차원 축소 기반 방법(C)과 같은 대안적인 입력 구성까지 포함하여 성능을 비교했다면, CroBo가 go-to solution이라는 것을 명확히 주장할 수 있었다고 생각한다. 

 개인적으로도 CroBo with Method A랑 DINOv2 with Method C 사이에 누가 더 잘할지 궁금하다 :) CroBo논문 쓸 때는 그냥 선행연구인 ToBo가 전부 CLS token 쓴다는 가정 하에서 비교했어서, 우리도 그렇게 했는데, 사실 정말 학계에 좋은 논문임을 주장하려면 저 실험도 꼭 해보고 project page등에 추가해야할 것 같다 :)