AI 논문리뷰 - Vision

Research Paper Review : Recurrent Video Masked Autoencoders

study_love 2026. 2. 1. 16:49

 오늘은 Recurrent Video Masked Autoencoders에서 제안한 모델에 대해서 공부해보려고 한다.

https://arxiv.org/abs/2512.13684

 

Recurrent Video Masked Autoencoders

We present Recurrent Video Masked-Autoencoders (RVM): a novel video representation learning approach that uses a transformer-based recurrent neural network to aggregate dense image features over time, effectively capturing the spatio-temporal structure of

arxiv.org

Introduction

 이 연구는 이전의 입력들과 현재의 입력을 함께 활용해 현재의 state를 형성하는, 즉 causal 방식으로 동작하는 video encoder를 설계한 연구라고 볼 수 있다.

Methods

 

 그림만 보아도 이해할 수 있을 만큼 전체 아키텍처는 비교적 단순하다. 먼저 x0부터 x3까지의 reference frame들을 각각 image encoder에 통과시켜 z0부터 z3까지의 latent representation을 얻는다. 이렇게 얻은 latent들은 GRU와 Transformer를 결합한 RNN 구조에 입력되어, 시간 순서를 보존하는 causal 방식으로 처리되며 state가 순차적으로 업데이트된다.

 이후 최종적으로 얻어진 state는, 4에서 48 프레임 사이의 랜덤한 time gap에서 샘플링된 하나의 이미지 xT에 대해, 해당 이미지의 masked region을 복원하기 위한 cross-attention의 key와 value로 사용된다.

 이러한 학습 과정을 통해 모델은 과거 프레임들에 포함된 정보를 효과적으로 융합한 state를 형성하게 되며, 이 state는 xT의 reconstruction에 직접적인 도움을 준다. 그 결과, temporal consistency를 갖는 latent representation이 자연스럽게 학습되고, 동시에 이러한 정보를 효율적으로 통합하는 RNN 구조 자체도 함께 훈련된다고 볼 수 있다.

Experiments

 기존의 V-JEPA같은 모델들에 비해서 Video Tasks와 Spatial Tasks들을 모두 잘 푸는 것을 알 수 있다. 

 

또한, RVM 프로젝트 페이지를 보면, noise로 가득 찬 화면에서 하나의 noise box가 왼쪽에서 오른쪽으로 이동하는 영상이 소개되어 있다. 이 예제에서는 RVM이 시간에 따라 이동하는 noise box의 존재를 인식하고 있음을 확인할 수 있다.

 

 개인적으로는, video encoder라면 이전 프레임들과 정보를 충분히 주고받아, 현재 프레임만으로는 알 수 없는 내용을 파악할 수 있어야 한다고 생각한다. 이러한 능력은 시간적 정보를 명시적으로 활용할 수 있는 video encoder만이 가질 수 있는 고유한 특성이며, 단일 이미지에 기반한 image encoder로는 본질적으로 구현이 어렵다는 점에서 의미가 있다. 실제로 사람 역시 영상을 통해서야 비로소 노이즈 속에 box가 존재한다는 사실을 인식할 수 있고, 이미지 한 장만 보고서는 이를 알아내기 어렵다.

 그런 의미에서 이 데모는 새로운 능력을 과장해서 보여준다기보다는, video encoder가 갖추어야 할 핵심적인 장점을 직관적으로 드러내는 사례라고 볼 수 있다. 동시에 이는 모델이 현재의 state를 형성하는 과정에서 이전 프레임들과 정보를 효과적으로 교환하고 있음을 보여주는 간접적인 증거이기도 하다.

 

https://rvm-paper.github.io/

 

Recurrent Video Masked Autoencoders

We present Recurrent Video Masked-Autoencoders (RVM): a novel approach to video representation learning that leverages recurrent computation to model the tempo- ral structure of video data. RVM couples an asymmetric masking objective with a transformer-bas

rvm-paper.github.io