오늘은 VFM(Vision Foundation Model)들과 LLM(Large Language Model)들의 # of Model Parameter를 비교해보려고 한다. 보통 LLM이 VFM에 비해서 훨씬 모델 파라미터 개수가 많은 것을 알 수 있는데, 그 이유는 보통 Vision Data가 Language Data에 비해 다양성이 너무 적어서 VFM은 1B정도보다 모델 크기를 키워도 거의 성능향상이 없기 때문이다.
VFM
| Model Name | # of params |
| dinov2-base | 0.1B |
| dinov2-large | 0.3B |
| dinov2-giant | 1B |
| MAE-base | 0.09B |
| MAE-large | 0.3B |
| MAE-huge | 0.6B |
LLM
| Model Name | # of params |
| GPT-2 | 1.5B |
| GPT-3 | 175B |
| LLaMa 3.1 | 8B/70B/405B |
| PaLM | 540B |
| T5 | 11B |
| Grok-1 | 314B |
| Gemma 2 | 9B/27B |
| Qwen2 | 72B |
추가적으로 VLM의 # of param에 대해서 알아보도록 하자. VLM은 크게 두 가지 종류가 있다. CLIP류의 (Image,Caption) pair data를 써서 Vision Encoder를 통과한 Image의 Embedding과 Text Encoder를 통과한 Caption의 Embedding의 Cos similarity를 높이는 VLM이 있고, LLM input으로 vision encoder를 통과한 vision data와 text를 같이 넣어주는 LLAVA류의 VLM이 있다. CLIP류의 VLM이 LLAVA류의 VLM보다 압도적으로 param수가 작은 것을 알 수 있다. (CLIP류의 VLM은 그냥 Image와 Caption에 대해서 좋은 embedding만 만들어주면 되는데, LLAVA류의 VLM은 output으로 LLM text를 내보내야 함)
VLM(CLIP)
| Model Name | # of params |
| CLIP-ViT-Base/16 | 0.15B |
| CLIP-ViT-Large/14 | 0.4B |
| EVA-02-CLIP-b/16 | 0.15B |
| EVA-02-CLIP-L/14 | 0.4B |
| EVA-02-CLIP-E/14 | 5B |
VLM(LLAVA)
LLAVA류의 VLM은 Vision Encoder가 LLM에 비해서 너무 param수가 작아서 사실상 LLM param수랑 같다고 보면 된다.
'AI 기본 지식' 카테고리의 다른 글
| Flow Models (0) | 2025.11.28 |
|---|---|
| What is Domain Generalization & Inductive Bias? (0) | 2025.11.28 |
| Vision 딥러닝 훈련 trend : pre-training -> fine-tuning (0) | 2025.11.26 |
| 딥러닝 학습을 하기 위한 VRAM size + Nvidia GPU series성능 비교 (0) | 2025.11.25 |
| Normalization : Batch Norm vs Layer Norm (0) | 2025.11.25 |