오늘은 V-JEPA의 간단한 리뷰를 진행해보고자 한다. 전반적으로 V-JEPA는 I-JEPA를 비디오 도메인으로 확장한 모델로, 핵심 아이디어 자체에는 큰 변화가 없다.
이미 이전 글에서 I-JEPA의 구조와 학습 방식에 대해 비교적 자세히 다루었기 때문에, 본 글에서는 I-JEPA와 내용이 겹치는 반복적인 설명은 최소화하고, V-JEPA가 I-JEPA와 비교해 어떤 점이 달라졌는지에 초점을 맞춰 살펴보려 한다.
I-JEPA에 대한 자세한 내용은 아래의 이전 글을 참고하면 된다.
https://seokmin-hardstudy.tistory.com/38
Research Paper Review (I-JEPA) : Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture
오늘은 I-JEPA라는 논문을 공부해보려고 한다. 이 논문에서 제안한 아키텍처가 훈련이 안정적으로 잘 된다는 점이 특히 인상적이다. 직관적으로는 학습이 쉽지 않을 것처럼 보이는데도 실제로는
seokmin-hardstudy.tistory.com
https://arxiv.org/abs/2404.08471
Revisiting Feature Prediction for Learning Visual Representations from Video
This paper explores feature prediction as a stand-alone objective for unsupervised learning from video and introduces V-JEPA, a collection of vision models trained solely using a feature prediction objective, without the use of pretrained image encoders, t
arxiv.org
Method

V-JEPA는 기본적으로 비디오 인코더를 학습하기 위한 아키텍처이다. 일반적인 비디오 인코더는 입력으로 T개의 프레임을 받으며, 각 프레임은 h′ × w′개의 시각적 패치로 분할된다. 이때 모델은 전체 비디오를 대표하는 하나의 class token과 함께, T × h′ × w′ 개의 패치 토큰을 출력으로 생성한다.
이를 바탕으로 V-JEPA의 구조를 간단히 생각해보면, T × h′ × w′ 개의 토큰 중 일부를 마스킹하고, 해당 마스킹된 토큰의 표현을 I-JEPA와 유사한 방식으로 예측하도록 학습하는 문제로 이해할 수 있다.
Delving into detail
이제 V-JEPA만의 마스킹 전략을 살펴보자. V-JEPA에서는 T개의 모든 프레임에 동일한 마스크를 적용한다. 이는 프레임마다 서로 다른 위치를 마스킹할 경우, 이전 프레임의 정보를 그대로 활용해 다음 프레임을 맞추는 지나치게 쉬운 예측 문제가 되는 것을 방지하기 위함이다. 즉, 항상 동일한 공간적 위치가 가려지도록 함으로써, 모델이 시간적인 단순 복사에 의존하지 못하게 만든다.
또한 V-JEPA에서는 한 프레임에서 마스킹된 영역을 예측할 때 다른 프레임의 정보 역시 활용할 수 있기 때문에, I-JEPA에 비해 자연스럽게 더 높은 masking ratio를 사용하게 된다.
마지막으로 V-JEPA에서는 하나의 visual patch, 즉 하나의 토큰을 연속된 두 개의 프레임에서 동일한 위치에 존재하는 16×16 픽셀 영역으로 구성한다. 이는 시간 차원을 토큰 단위에서 직접 묶어 처리하는 방식으로, 연산량을 줄이기 위한 설계 선택으로 해석할 수 있다.
Experiment
여러 실험들을 통해서, V-JEPA가 좋은 성능을 내는 것을 확인할 수 있었다.
