2026/02/01 4

Research Paper Review : Recurrent Video Masked Autoencoders

오늘은 Recurrent Video Masked Autoencoders에서 제안한 모델에 대해서 공부해보려고 한다.https://arxiv.org/abs/2512.13684 Recurrent Video Masked AutoencodersWe present Recurrent Video Masked-Autoencoders (RVM): a novel video representation learning approach that uses a transformer-based recurrent neural network to aggregate dense image features over time, effectively capturing the spatio-temporal structure ofarxiv.orgIn..

A Survey on Image Encoders Trained with Video for Robotics

오늘은 나만의 survey 글을 작성하고자 한다. 본 글에서는 robotics downstream task를 위한 image encoder의 self-supervised learning에 대해 다룬다. Network Architecture for Robotic tasks일반적으로 manipulation과 같은 robotics task를 해결하기 위한 네트워크 구조는 다음과 같다 이 구조에서 학습의 대상이 되는 네트워크는 크게 두 가지이다.하나는 image encoder, 다른 하나는 policy network이다.Reinforcement Learning이나 Behavior Cloning과 같은 방법을 통해 이 두 네트워크를 end-to-end로 학습시킬 수 있다.Image Encoder self supe..

video를 보고 학습한 image encoder가 가져야 할 자질

Video로 학습한 Image Encoder는 무엇이 달라야 하는가? 오늘은 video를 보고 학습한 image encoder가 image만 보고 학습한 image encoder에 비해 어떤 자질을 가져야 하는지에 대해 내 생각을 정리해보고자 한다. 1. 인간의 지각 과정에 대한 가설 나는 인간의 지각(perception)이 다음과 같은 과정으로 형성된다고 생각한다.우리는 현재 프레임과 과거 프레임들을 각각 image encoder를 통해 latent space로 임베딩하고,이후 RNN, Transformer와 같은 정보 교환 모듈을 통해 이 latent들 사이에서 정보를 통합한다.그 결과로 형성되는 것이 바로 현재 시점의 지각이다.이렇게 만들어진 현재의 지각은 이후 다양한 방식으로 활용될 수 있다. 예..

AI 기본 지식 2026.02.01