AI 논문리뷰 - Vision

Research Paper Review : Fine-Tuning can Distort Pretrained Features and Underperform Out-Of-Distribution

study_love 2025. 11. 26. 17:31

 이 게시물에서는 밑의 논문에서 소개한 fine-tuning 방법에 대해 소개하고자 한다. 

https://arxiv.org/abs/2202.10054

 

Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution

When transferring a pretrained model to a downstream task, two popular methods are full fine-tuning (updating all the model parameters) and linear probing (updating only the last linear layer -- the "head"). It is well known that fine-tuning leads to bette

arxiv.org

 

 보통 방대한 dataset에서 pre-text task를 푸는 pre-training을 하고 난 후 task specific dataset에서 fine-tuning을 할 때, 우리는 full fine tuning방법과 Linear probing 방법 중 하나를 택하곤 했다. full fine tuning방법은 모델의 encoder부분을 task에 맞게 최적화 할 수 있다는 점에서 고점이 높지만, 잘못하면 catastrophic forgetting이 일어날 수 있다는 단점이 있고, Linear Probing은 catastrophic forgetting이 일어날리는 없지만, 모델의 encoder가 특정 task에 완벽히 최적화되지는 않는다는 단점이 있었다.

 저자들은 full fine tuning시에 catastrophic forgetting이 일어나는 이유가 decoder부분을 random initialized해서 훈련 초기에 bad gradient가 encoder부분으로 흘러들어가기 때문이라고 주장한다. 따라서 Linear-Probing을 먼저 해서 decoder를 initalization시키고, full fine tuning을 하게 되면, catastrophic forgetting을 방지할 수 있으면서 task에 맞게 encoder를 최적화 시킬 수 있다고 주장한다. (굉장히 맞는 말이라 읽자마다 머리를 탁 쳤다.)

 위의 그림을 보면, 저자들의 LP-FT방식이 훈련 데이터에 대해서도 fine tuning만큼의 고점을 찍으면서, 다른 일반화된 데이터에 대해서도 Linear Probing만큼 성능을 방어하는 것을 넘어서 심지어 더 좋은 성능을 기록하고 있다.