AI 기본 지식

# of Model Parameter : VFM vs LLM

study_love 2025. 11. 25. 19:28

 오늘은 VFM(Vision Foundation Model)들과 LLM(Large Language Model)들의 # of Model Parameter를 비교해보려고 한다. 보통 LLM이 VFM에 비해서 훨씬 모델 파라미터 개수가 많은 것을 알 수 있는데, 그 이유는 보통 Vision Data가 Language Data에 비해 다양성이 너무 적어서 VFM은 1B정도보다 모델 크기를 키워도 거의 성능향상이 없기 때문이다. 

VFM

Model Name # of params
dinov2-base 0.1B
dinov2-large 0.3B
dinov2-giant 1B
MAE-base 0.09B
MAE-large 0.3B
MAE-huge 0.6B

 

LLM

Model Name # of params
GPT-2 1.5B
GPT-3 175B
LLaMa 3.1 8B/70B/405B
PaLM 540B
T5 11B
Grok-1 314B
Gemma 2 9B/27B
Qwen2 72B

 

 추가적으로 VLM의 # of param에 대해서 알아보도록 하자. VLM은 크게 두 가지 종류가 있다. CLIP류의 (Image,Caption) pair data를 써서 Vision Encoder를 통과한 Image의 Embedding과 Text Encoder를 통과한 Caption의 Embedding의 Cos similarity를 높이는 VLM이 있고, LLM input으로 vision encoder를 통과한 vision data와 text를 같이 넣어주는 LLAVA류의 VLM이 있다. CLIP류의 VLM이 LLAVA류의 VLM보다 압도적으로 param수가 작은 것을 알 수 있다. (CLIP류의 VLM은 그냥 Image와 Caption에 대해서 좋은 embedding만 만들어주면 되는데, LLAVA류의 VLM은 output으로 LLM text를 내보내야 함)

VLM(CLIP)

Model Name # of params
CLIP-ViT-Base/16 0.15B
CLIP-ViT-Large/14 0.4B
EVA-02-CLIP-b/16 0.15B
EVA-02-CLIP-L/14 0.4B
EVA-02-CLIP-E/14 5B

 

VLM(LLAVA)

 LLAVA류의 VLM은 Vision Encoder가 LLM에 비해서 너무 param수가 작아서 사실상 LLM param수랑 같다고 보면 된다.