오늘은 T-CoRe라는 논문에서 제안한 video 기반 self-supervised image encoder 학습 방법을 정리해보려고 한다.
https://arxiv.org/abs/2503.15096
When the Future Becomes the Past: Taming Temporal Correspondence for Self-supervised Video Representation Learning
The past decade has witnessed notable achievements in self-supervised learning for video tasks. Recent efforts typically adopt the Masked Video Modeling (MVM) paradigm, leading to significant progress on multiple video tasks. However, two critical challeng
arxiv.org
Methods

1. Frame Sampling
하나의 비디오에서 past / current / future에 해당하는 3개의 frame을 다음 규칙에 따라 샘플링한다.
- past와 future frame은 current frame으로부터 최소 a, 최대 B만큼 떨어진 시점에서 선택한다.
- current frame에 대해서는, 원본 이미지 외에 일부 영역을 masking한 masked current image를 추가로 생성한다.

2. Auxiliary Branch – Patch Matching Module
Auxiliary branch에서는 Patch Matching Module을 수행한다.
이 모듈의 핵심은 다음과 같다.
- masking된 current image를 query로 사용하고
- past frame 혹은 future frame을 대상으로 cross-attention을 수행하여
- current frame에서 가려진 영역을 과거 혹은 미래 frame의 정보로 예측한다.
이 과정을 통해,
- 과거 frame으로부터 예측한 current latent와
- 미래 frame으로부터 예측한 current latent
두 가지 결과를 얻는다.
직관적으로 보면, 이는 현재 frame의 patch와 과거/미래 frame의 patch를 matching하는 문제라고 볼 수 있다.

3. Teacher Representation
한편, masking되지 않은 current full image를 teacher encoder에 통과시켜
정답으로 사용할 current latent representation을 생성한다.
4. Latent Consistency Learning
이제 다음 세 가지 representation이 존재한다.
- 과거 frame으로부터 예측한 current latent
- 미래 frame으로부터 예측한 current latent
- teacher encoder에서 얻은 current latent
이들을 각각 MLP projection head에 통과시킨 뒤, 다음과 같은 관계를 학습한다.
- 과거 → 현재 예측 결과와 teacher current 사이의 loss
- 미래 → 현재 예측 결과와 teacher current 사이의 loss
- 과거 → 현재 예측 결과와 미래 → 현재 예측 결과 사이의 loss
특히 마지막 항은
👉 past와 future에서 얻은 latent가 서로 일관되도록 만드는 역할을 한다는 점에서 핵심적이다.
5. CLS Token – Global Semantics 유지
Global semantic information을 유지하기 위해,
- masked current frame에서 나온 CLS token과
- full current frame에서 나온 CLS token
사이에 DINO loss를 적용한다.
이를 통해 local patch-level 학습과 global representation 학습을 동시에 유지한다.
Discussion
구조만 보면 Siamese MAE와 상당히 비슷해 보일 수 있다.
하지만 차별점은 분명히 존재한다.
- 단순히 reconstruction을 하는 것이 아니라 latent space에서 recon을 한다.
(단, SimaMAE에 비해서 새로운거지 concept 자체는 IBOT 같이 이미 먼저 한 논문들이 많았음) - 과거에서 예측한 current latent와 미래에서 예측한 current latent 사이의 loss가 성능 향상에 중요한 역할을 한다는 점이 인상적이다.
만약 이 consistency loss가 없었다면,
“과거랑 미래를 동시에 쓰는 Siam MAE인데, 이미지 더 썼으니 성능 오르는 거 아니야?”
라는 다소 밋밋한 인상을 줄 수도 있었을 것 같다.

Experiments
Attention map을 시각화해보면,
- current frame에서 masking된 영역이
- past 혹은 future frame에서 대응되는 영역을 중심으로
- 의도한 대로 잘 복원되고 있음
을 확인할 수 있다.
즉, 모델이 실제로 시간을 따라 대응되는 patch를 활용해 추론하고 있음을 보여준다.

Comment
완전히 새로운 아이디어라기보다는, 기존 방법들을 안정적으로 잘 조합한 논문이라는 인상이 강하다. 그래도 reject을 줄 수는 없는 논문 같은 느낌이다. 그래도 나름 past–future latent consistency를 명시적으로 강제한 설계가 이 방법을 단순한 변형이 아니라 의미 있는 확장으로 만들어주고, demo도 보여주고, SOTA를 찍는 것도 보여줬기 때문이다. 뭔가 나 같은 junior들이 본받아서 해야 할 연구라고 생각이 든다.