AI 논문리뷰 - Vision for Robotics

How to Avoid Overfitting When Using Pre-trained Vision Encoders in IL/RL

study_love 2026. 3. 26. 20:33

Introduction

 오늘은 Pre-trained vision encoder를 사용하는 robotic agent를 imitation learning (IL)이나 reinforcement learning (RL)으로 훈련시킬 때 주의할 점에 대해서 서술해보고자 한다.

 Agent를 imitation learning (IL)이나 reinforcement learning (RL)으로 학습할 때, encoder까지 함께 fine-tuning하는 경우, 데이터가 제한된 환경에서는 overfitting 문제가 쉽게 발생한다. 이는 로봇 학습에 사용되는 데이터가 대규모 사전학습 데이터셋과 달리 특정 환경, task, 그리고 camera viewpoint에 편향되어 있기 때문이다. 그 결과, encoder는 원래 다양한 시각적 상황에 대해 유지하고 있던 일반화 능력을 점차 잃고, 주어진 downstream 데이터 분포에 과도하게 적응하게 된다. 특히 demonstration 수가 적은 IL이나 초기 RL 단계처럼 데이터 다양성이 부족한 설정에서는 이러한 현상이 더욱 두드러지며, 표현의 품질이 향상되기보다는 오히려 특정 상황에만 특화된 brittle한 representation으로 붕괴될 수 있다. 하지만 대기업이 아닌 이상, 데이터가 적은건 항상 직면할 수 밖에 없는 문제인데, 이것을 어떻게 방지할 수 있을까? 

Method

a) adjust learning rate

 OVRL-v2에 따르면, fine-tuning 과정에서 encoder의 learning rate는 성능에 매우 중요한 영향을 미친다. 기본 설정(2.5×10⁻⁴)을 사용할 경우 SPL 37.8, SR 51.0의 성능을 보이는 반면, learning rate를 1.5×10⁻⁶으로 낮추면 SPL 58.7, SR 82.0으로 성능이 크게 향상된다. 이는 과도한 learning rate가 pre-trained representation을 빠르게 붕괴시켜 일반화 성능을 저하시킬 수 있음을 시사하며, fine-tuning 시 encoder의 learning rate를 신중하게 조절하는 것이 모델이 training distribution에 과도하게 적응하는 것을 완화하는 데 도움을 줄 수 있음을 시사한다.

b) apply image augmentation

 또한, data augmentation의 효과를 살펴보면, augmentation을 적용하지 않은 경우 SPL 43.2, SR 57.8에 머무르는 반면, augmentation을 적용하면 SPL 58.7, SR 82.0으로 성능이 크게 향상된다. 이는 augmentation이 모델이 training distribution에 과도하게 적응하는 것을 완화하는 데 도움을 줄 수 있음을 시사한다.

Conclusion

 종합하면, 이러한 결과는 pre-trained vision encoder를 fine-tuning할 때 적절한 정규화가 필수적임을 보여준다. 특히, learning rate를 충분히 낮게 설정하고 data augmentation을 함께 사용하는 것이 안정적인 성능 확보에 중요하다. 반면 encoder를 freeze하는 경우 이러한 민감도는 줄어들지만, 표현의 task-specific 적응에는 제한이 따른다.

 

Reference

https://arxiv.org/abs/2303.07798

 

OVRL-V2: A simple state-of-art baseline for ImageNav and ObjectNav

We present a single neural network architecture composed of task-agnostic components (ViTs, convolutions, and LSTMs) that achieves state-of-art results on both the ImageNav ("go to location in <this picture>") and ObjectNav ("find a chair") tasks without a

arxiv.org