AI 논문리뷰 - Vision for Robotics

A Survey on Image Encoders Trained with Video for Robotics

study_love 2026. 2. 1. 15:17

 오늘은 나만의 survey 글을 작성하고자 한다. 본 글에서는 robotics downstream task를 위한 image encoder의 self-supervised learning에 대해 다룬다. 

Network Architecture for Robotic tasks

일반적으로 manipulation과 같은 robotics task를 해결하기 위한 네트워크 구조는 다음과 같다

 

이 구조에서 학습의 대상이 되는 네트워크는 크게 두 가지이다.
하나는 image encoder, 다른 하나는 policy network이다.
Reinforcement Learning이나 Behavior Cloning과 같은 방법을 통해 이 두 네트워크를 end-to-end로 학습시킬 수 있다.

Image Encoder self supervised learning

 물론 위의 구조를 end-to-end로 학습하는 것도 가능하다. 그러나 image encoder가 의미 있는 image feature를 추출하도록 사전에 self-supervised learning을 통해 학습시키고, 이를 weight initialization으로 사용하는 것이 훨씬 더 좋은 성능으로 이어진다는 점은 이제 널리 받아들여지고 있다.

 따라서 가장 자연스럽게 떠올릴 수 있는 선택지는, 현재 SOTA 성능을 보이는 image encoder들을 사용하는 것이다. 대표적인 예로는 DINOv2MAE와 같은 방법들이 있다.

Limitation of previous methods

 그러나 이러한 방법들은 정적인 image만을 사용해 학습된 image encoder라는 공통된 한계를 가진다. 이 encoder들을 robotics task에 그대로 적용할 경우, 종종 sub-optimal한 성능을 보이게 된다. 그 이유를 살펴보자.

 Robotics task에서는 입력으로 시간적으로 연속된 image sequence가 주어진다. 각 frame은 image encoder를 통해 latent space로 임베딩되고, 이후 policy network 또는 별도의 neck/head 구조를 통해 시간 축을 따라 정보가 교환된 뒤 최종 action이 생성된다.이는 로봇이 적절한 action을 수행하기 위해 과거와 현재 frame을 모두 고려하여 상황을 이해해야 하기 때문이다.

 문제는, 정적인 image만으로 학습된 embedding은 이러한 인접한 frame 간의 상호작용을 전제로 설계되지 않았다는 점이다. 그 결과, policy network가 latent space 상에서 temporal하게 중요한 정보를 효율적으로 교환하기 어려워지고, 이는 곧 성능 저하로 이어진다.

video-based Image Encoder Pretraining

 이러한 이유로, image만을 이용한 image encoder self-supervised learning은 robotics task에서 sub-optimal할 수 있다는 인식이 점점 확산되었고, 그 대안으로 video를 이용한 image encoder self-supervised learning이 주목받기 시작했다.

 Video 기반 학습에서는 연속된 frame들을 각각 image encoder에 통과시켜 latent로 변환한 뒤, latent space에서 시간적 상호작용을 요구하는 pre-text task를 수행한다. 이를 통해, 이후 policy network가 과거와 현재의 정보를 보다 자연스럽게 interaction할 수 있는 latent representation이 형성될 것이라고 기대한다.

 

Video에서 학습된 image encoder가 가지는 이러한 장점들에 대해서는, 아래의 블로그 글에서 보다 자세히 다루고 있다.

https://seokmin-hardstudy.tistory.com/74

 

video를 보고 학습한 image encoder가 가져야 할 자질

Video로 학습한 Image Encoder는 무엇이 달라야 하는가? 오늘은 video를 보고 학습한 image encoder가 image만 보고 학습한 image encoder에 비해 어떤 자질을 가져야 하는지에 대해 내 생각을 정리해보고자 한다

seokmin-hardstudy.tistory.com

Methods

이제 CropMAE, SiamMAE, TOBO, RSP가 각각 어떤 pre-text task를 정의했는지 살펴보자.

CropMAE

 

 먼저 CropMAE는 다소 흥미로운 점이 있다. 이 방법은 video dataset을 사용하지 않는다. 대신 하나의 image에서 view 1을 기준으로 random crop을 적용해 view 2를 생성하고, view 1의 patch 정보와 view 2에서 관측 가능한 visible patch를 이용해
view 2의 masked patch를 복원하는 task를 푼다.

 이 방법이 robotics task에서 효과적인 이유는, 개인적으로 crop이라는 augmentation이 일정 수준의 temporal 특성을 내포하고 있기 때문이라고 생각한다. 예를 들어, 하나의 물체가 점점 확대되는 비디오를 떠올려 보면, 이는 서로 다른 scale의 crop된 image sequence와 사실상 유사하다고 볼 수 있다.

 따라서 CropMAE는 엄밀한 의미에서 video에 맞게 학습되었다고 말하기는 어렵지만, 그럼에도 불구하고 과거와 현재의 정보를 보다 자연스럽게 interaction할 수 있는 latent representation이 일부 형성될 것이라고 기대한다.

SiamMAE

 

 SiamMAE는 보다 직접적으로 temporal 구조를 활용한다. 이 방법은 과거 frame의 patch 정보미래 frame에서 관측 가능한 visible patch를 입력으로 사용하여, 미래 frame 전체를 복원하는 task를 푼다.

이 방식이 robotics task에서 효과적인 이유는, 과거와 미래 frame 사이의 정보가 latent space에서 자연스럽게 교환될 수 있도록 representation을 학습했기 때문이라고 생각한다. 즉, temporal dependency를 명시적으로 요구하는 pre-text task가 encoder의 표현을 그 방향으로 유도한다.

TOBO

다음은 TOBO이다. TOBO에서는 과거 frame의 CLS token미래 frame의 visible token을 이용해, 미래 frame 전체를 복원하는 task를 수행한다.

 이 방법 역시 robotics task에서 효과적인 이유는 SiamMAE와 유사하게, 과거와 미래 frame 간의 정보 교환이 잘 이루어질 수 있는 latent space를 형성했기 때문이라고 볼 수 있다.

 추가로 중요한 점은, robotics downstream task에서 CLS token이 실제로 활용되는 경우가 많다는 점이다. TOBO에서는 이 CLS token에 중심적으로 loss가 걸리도록 설계되어 있는데, 이 점 역시 downstream 성능 향상에 기여했을 가능성이 크다고 생각한다.

RSP

 

 RSP는 앞선 방법들과 비교했을 때 다소 결이 다른 접근을 취한다. 일반적으로 video-based image encoder들은 현재 frame의 spatial 정보를 잘 담고, 다른 time step의 frame들과 정보를 잘 교환할 수 있는 latent를 만드는 것에 초점을 둔다.

 반면 RSP는 현재 frame 하나만을 보고도, 미래의 가능 세계(possible futures)까지 embedding에 포함시키려는 전략을 취한다. 구체적인 구현과 설계 철학은 RSP 리뷰를 참고하는 것이 좋다.

https://seokmin-hardstudy.tistory.com/34

 

Research Paper Review : Visual Representation Learning with Stochastic Frame Prediction

오늘 이 게시물에서는 Visual Representation Learning with Stochastic Frame Prediction이라는 논문에 대해서 리뷰해보도록 하겠다. https://arxiv.org/abs/2406.07398 Visual Representation Learning with Stochastic Frame PredictionSelf-su

seokmin-hardstudy.tistory.com

 

이 접근은 기존의 다소 보수적인 사고방식을 깨는 흥미로운 시도라고 생각한다. 다만, 실제 downstream task 성능에서 TOBO가 더 좋은 결과를 보이는 것을 보면, image encoder 단독으로 이러한 역할을 수행하기에는 다소 과한(too much) 설정일 수도 있겠다는 인상을 준다.

성능 비교

CropMAE, SiamMAE, TOBO, RSP의 downstream 성능 비교 결과는 다음과 같다

 

Possible Methods

 현재까지의 논문들은 **매우 효율적으로 소수의 image (주로 2장)**만을 sampling하여, 서로 다른 time step의 embedding들이 latent space에서 효과적으로 정보를 교환할 수 있도록 pre-text task를 설계해 왔다. 앞으로 이러한 접근은 더 다양한 variant로 확장될 수 있을 것이라 기대된다.

 

 또한 RVM과 같은 방법처럼 여러 image를 동시에 활용하여 학습한다면, 보다 temporal consistency가 강한 latent representation을 학습할 수 있을 가능성도 있다 (물론 fair comparison issue가 발생할 수는 있다).

 다만 RVM은 image encoder뿐 아니라 뒤의 정보 교환 모듈까지 포함한 구조를 제안한 모델이며, 실제로도 video encoder로 분류되어 video encoder들과 비교되었기 때문에 RVM 논문 자체는 전혀 문제가 없다.

 실제 현업 환경에서는, RVM에서 image encoder만 분리해 사용한다면 TOBO보다 더 좋은 성능을 보일 가능성도 충분히 있다고 생각한다.