오늘은 EVA : Exploring the Limits of Masked Visual Representation Learning at Scale이라는 논문에 대해서 리뷰해보도록 하겠다.
https://arxiv.org/abs/2211.07636
EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
We launch EVA, a vision-centric foundation model to explore the limits of visual representation at scale using only publicly accessible data. EVA is a vanilla ViT pre-trained to reconstruct the masked out image-text aligned vision features conditioned on v
arxiv.org
이 논문도 MAE와 CLIP에 이어서 pre-training에서의 새로운 task를 제안한 논문이다. 대용량 데이터로 pre-text task를 학습해서 좋은 initialized embedding을 추후의 downstream task들에게 제공하는 것이 목적이다.
기존의 MAE같은 MIM(Masked Image Modeling)만 하는 모델들은 그냥 local한 부분의 texture만 보고 대충 채우면 MIM문제가 어느정도 풀리기 때문에, globally semantic한 정보는 잘 담지 못하는 경향이 있었다. 반대로 CLIP은 Language덕분에 globally semantic한 정보를 비교적 잘 담지만 local detail이 잘 반영되지 않는 문제가 있었다. 따라서 자연스럽게 이 둘의 장점을 합쳐보면 좋겠다는 생각을 하게 된다.
그래서 저자들이 제안한 것이 마스킹한 이미지를 input으로 주고 output으로 원본 이미지의 CLIP vision embedding이 나오도록 학습하는 모델을 만들자는 것이다. 그러면 모델은 내부적으로 어느정도 이미지를 복원하면서 local texture를 embedding하는 법도 배우고, 그 후 semantic(texture)정보를 embedding하려는 식으로 학습이 될 것이라는 기대가 생기게 된다.

학습 과정을 간단히 그림으로 나타내면 다음과 같다. 그림 출처는 글 맨 밑에 적어놓았다.
EVA로 pre-training한 encoder를 이용해서 여러 downstream task에 fine-tuning을 하고 성능을 측정해보았더니 CLIP이나 MAE로 훈련시킨 encoder를 이용해서 fine-tuning을 했을 때 보다 성능이 좋았다. 즉 EVA가 더 좋은 feature를 제공했음을 알 수 있다.
논문을 이해할 때 밑의 블로그를 참고했다. 매우 잘 설명해주셔서 많은 도움이 되었다. 시간 되면 읽어보기를 강력 추천한다.
https://velog.io/@juner1103/EVA-%EB%AA%A8%EB%8D%B8%EC%97%90-%EB%8C%80%ED%95%98%EC%97%AC
EVA 모델에 대하여
Vision AI의 최신 연구 중 하나인 EVA (Empirical Vision Architecture) 모델에 대해 정리한 글입니다.CLIP을 활용한 Self-Supervised Learning 방식이 핵심이며, 직접 실습과 개념을 이해하면서 정리했어요!CLIP Vi
velog.io