이번 게시물에서는 Masked Autoencoders Are Scalable Vision Learners라는 논문에 대해서 리뷰해보도록 하겠다.
https://arxiv.org/abs/2111.06377
Masked Autoencoders Are Scalable Vision Learners
This paper shows that masked autoencoders (MAE) are scalable self-supervised learners for computer vision. Our MAE approach is simple: we mask random patches of the input image and reconstruct the missing pixels. It is based on two core designs. First, we
arxiv.org
MAE는 pre-training과정에서의 task를 제안한 논문이다. 즉 방대한 데이터를 가지고 MAE에서 제안한 task를 풀면서 visual patch의 좋은 embedding을 배우게 하는 것이 목적이다. task는 매우 간단하다. random하게 input image의 여러 patch를 가리고 모델에게 reconstruction task를 풀게 하는 것이다.

NLP pre-training에서 거의 같은 task로 BERT가 있었는데, BERT에서는 input에서 25%의 token만 가렸지만, MAE에서는 무려 70%를 가렸다. 그 이유는 다음과 같다.
- Since Image data is generated from nature, it have continous property
- Conversely, Natural language data have more semantic meanings because it is generated by human.
즉 reconstruction task에 경우에는 image가 language보다 훨씬 더 쉽기 때문에, Image도 25%정도로만 input을 가리면 문제가 너무 쉬워서 좋은 embedding을 배울 수 없기 때문이다.
그리고 그림에도 잘 묘사되어 있는데, 구현할 때 encoder를 decoder보다 무겁게 만들었다고 했다. 그 이유는 나중에 결국 fine-tuning할 때 쓰는 것은 인코더뿐이므로, 인코더가 디코더에 비해서 더 유의미한 정보들을 많이 담기를 바랬기 때문이다.
또 훈련할 때 주의할 점은, fine-tuning할 때에는 masked patch라는게 존재하지 않으므로, mask를 씌우는 것은 input부터 씌우기 보다 layer의 중간쯤부터 가려줘야 한다. (앞에서는 가독성을 위해 그냥 input이라고 했다.)