Research Paper Review : Masked Autoencoders Are Scalable Vision Learners

AI 논문리뷰 - Vision

Research Paper Review : Masked Autoencoders Are Scalable Vision Learners

study_love 2025. 11. 27. 22:13

이번 게시물에서는 Masked Autoencoders Are Scalable Vision Learners라는 논문에 대해서 리뷰해보도록 하겠다.

Masked Autoencoders Are Scalable Vision Learners

This paper shows that masked autoencoders (MAE) are scalable self-supervised learners for computer vision. Our MAE approach is simple: we mask random patches of the input image and reconstruct the missing pixels. It is based on two core designs. First, we

arxiv.org

MAE는 pre-training과정에서의 task를 제안한 논문이다. 즉 방대한 데이터를 가지고 MAE에서 제안한 task를 풀면서 visual patch의 좋은 embedding을 배우게 하는 것이 목적이다. task는 매우 간단하다. random하게 input image의 여러 patch를 가리고 모델에게 reconstruction task를 풀게 하는 것이다.

NLP pre-training에서 거의 같은 task로 BERT가 있었는데, BERT에서는 input에서 25%의 token만 가렸지만, MAE에서는 무려 70%를 가렸다. 그 이유는 다음과 같다.

Since Image data is generated from nature, it have continous property
Conversely, Natural language data have more semantic meanings because it is generated by human.

즉 reconstruction task에 경우에는 image가 language보다 훨씬 더 쉽기 때문에, Image도 25%정도로만 input을 가리면 문제가 너무 쉬워서 좋은 embedding을 배울 수 없기 때문이다.

그리고 그림에도 잘 묘사되어 있는데, 구현할 때 encoder를 decoder보다 무겁게 만들었다고 했다. 그 이유는 나중에 결국 fine-tuning할 때 쓰는 것은 인코더뿐이므로, 인코더가 디코더에 비해서 더 유의미한 정보들을 많이 담기를 바랬기 때문이다.

또 훈련할 때 주의할 점은, fine-tuning할 때에는 masked patch라는게 존재하지 않으므로, mask를 씌우는 것은 input부터 씌우기 보다 layer의 중간쯤부터 가려줘야 한다. (앞에서는 가독성을 위해 그냥 input이라고 했다.)

'AI 논문리뷰 - Vision' 카테고리의 다른 글

Research Paper Review(DeTR) : End-to-End Object Detection with Transformers (0)	2025.11.28
Research Paper Review(EVA) : Exploring the Limits of Masked Visual Representation Learning at Scale (0)	2025.11.27
Research Paper Review : CLIP (0)	2025.11.26
Research Paper Review : Fine-Tuning can Distort Pretrained Features and Underperform Out-Of-Distribution (0)	2025.11.26
Research Paper Review : ImageNet-Trained CNNs are biased towards texture (0)	2025.11.26

현재글Research Paper Review : Masked Autoencoders Are Scalable Vision Learners

이석민의 공부일기

AI관련 어떤 내용이든 작성하는 블로그 Computer Vision, LLM등 어떠한 지식이든지 좋다!

ㅇㅍ8412,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

이석민의 공부일기