이 게시물에서는 VRAM의 개념에 대해서 알아보고, Nvidia의 GPU시리즈간 비교를 해보고자 한다. 먼저 VRAM에 대해서 알아보자. VRAM이란 GPU 메모리의 사이즈다. 딥러닝 훈련과 연결시켜서 이해를 하자면, (모델 파라미터, batch 입력 데이터, hidden layer 결과값들, gradient)를 전부 VRAM에 올릴 수 있으면 딥러닝 학습이 가능하고, 만약 (모델 파라미터, batch 입력 데이터, hidden layer 결과값들, gradient)를 올리기 위해서 필요한 메모리의 크기가 VRAM 크기보다 크다면 학습이 불가능하다.
다음으로는 Nvidia GPU series의 성능을 비교해보자. 성능을 비교할 때 보통 3가지 metric을 이용한다. 첫 번째는 우리가 위에서 공부한 VRAM size이다. VRAM size같은 경우에는 크면 클 수록 무거운 딥러닝 모델을 training할 수 있다. 두 번째는 VRAM 대역폭이 있다. VRAM 대역폭은 GPU와 GPU 메모리(HBM/GDDR) 사이의 데이터 전송 속도를 의미한다. 높으면 높을수록 training속도가 빨라질 것이다. 특히 LLM의 decoding stage와 같은 memory-bound application에서 매우 큰 효과를 발휘할 것이다. 다음으로는 FLOPS가 있다. 1초에 FLOP을 최대 몇번하는지를 나타내는 metric이다. 높으면 높을수록 계산을 빨리 한다는 얘기니까 training속도가 빨라질 것이다. 밑의 표에 여러 Nvidia GPU series들을 3가지 metric을 기준으로 정리해보았다.
| VRAM size | VRAM bandwidth | TFLOPS(FP16) | |
| 3090 | 24GB | 0.94 TB/s | 35 |
| 4090 | 24GB | 1.01 TB/s | 82 |
| 5090 | 32GB | 1.79 TB/s | 104 |
| A100 | 80GB | 2.04 TB/s | 312 |
| H100 | 80GB | 3.35 TB/s | 204 |
'AI 기본 지식' 카테고리의 다른 글
| Flow Models (0) | 2025.11.28 |
|---|---|
| What is Domain Generalization & Inductive Bias? (0) | 2025.11.28 |
| Vision 딥러닝 훈련 trend : pre-training -> fine-tuning (0) | 2025.11.26 |
| Normalization : Batch Norm vs Layer Norm (0) | 2025.11.25 |
| # of Model Parameter : VFM vs LLM (0) | 2025.11.25 |