video를 보고 학습한 image encoder가 가져야 할 자질
Video로 학습한 Image Encoder는 무엇이 달라야 하는가? 오늘은 video를 보고 학습한 image encoder가 image만 보고 학습한 image encoder에 비해 어떤 자질을 가져야 하는지에 대해 내 생각을 정리해보고자 한다. 1. 인간의 지각 과정에 대한 가설 나는 인간의 지각(perception)이 다음과 같은 과정으로 형성된다고 생각한다.우리는 현재 프레임과 과거 프레임들을 각각 image encoder를 통해 latent space로 임베딩하고,이후 RNN, Transformer와 같은 정보 교환 모듈을 통해 이 latent들 사이에서 정보를 통합한다.그 결과로 형성되는 것이 바로 현재 시점의 지각이다.이렇게 만들어진 현재의 지각은 이후 다양한 방식으로 활용될 수 있다. 예..