반응형
🔍 helm repo add nvidia https://nvidia.github.io/gpu-operator 이게 뭐야?
한 줄 요약
👉 NVIDIA GPU Operator는 “GPU 노드 전체를 자동으로 세팅해주는 올인원 운영자(Operator)”입니다.
1️⃣ NVIDIA GPU Operator란?
GPU Operator = GPU 노드를 사람이 수작업으로 설정하지 않게 해주는 자동화 도구
설치하면 아래 구성요소들을 한 번에 자동 설치/관리합니다.
GPU Operator가 설치하는 것들
| 구성요소 | 역할 |
| NVIDIA Driver | GPU 드라이버 |
| NVIDIA Container Toolkit | 컨테이너에서 GPU 사용 |
| NVIDIA Device Plugin | Kubernetes GPU 리소스 인식 |
| DCGM | GPU 상태 수집 라이브러리 |
| DCGM Exporter | Prometheus 메트릭 노출 |
| Node Feature Discovery | GPU 노드 라벨링 |
👉 즉, GPU Operator 하나 = GPU 관련 필수 컴포넌트 풀세트
2️⃣ 그럼 DCGM Exporter랑 뭐가 달라?
역할 비교
| 항목 | GPU Operator | DCGM Exporter |
| 범위 | GPU 노드 전체 관리 | GPU 메트릭만 |
| Driver 설치 | ✅ 포함 | ❌ 안함 |
| Device Plugin | ✅ 포함 | ❌ 안함 |
| DCGM Exporter | ✅ 포함 | ✅ 본인 |
| 설치 난이도 | ⭐⭐ | ⭐⭐⭐ |
| 통제 자유도 | 낮음 | 높음 |
👉 DCGM Exporter는 “부품”
👉 GPU Operator는 “완성차”
3️⃣ 그럼 이걸 같이 설치해야 하나?
❌ 절대 같이 설치하면 안 됩니다
왜냐하면:
- GPU Operator 안에 DCGM Exporter가 이미 포함
- Device Plugin도 중복
- Driver 관리도 충돌 가능
⚠️ 결과:
GPU 메트릭 중복 Pod CrashLoop Driver 충돌
4️⃣ 언제 GPU Operator를 써야 하나?
✅ GPU Operator가 적합한 경우
| 상황 | 권장 |
| Bare Metal Kubernetes | ⭐⭐⭐⭐⭐ |
| 온프레미스 클러스터 | ⭐⭐⭐⭐⭐ |
| GPU 노드가 자주 추가됨 | ⭐⭐⭐⭐ |
| DevOps 자동화 우선 | ⭐⭐⭐⭐ |
| 드라이버 직접 관리 부담 | ⭐⭐⭐⭐⭐ |
5️⃣ NCP Kubernetes에서는 어떤 선택이 맞나?
🔥 NCP 기준 결론은 이거입니다
| 선택지 | 권장도 | 이유 |
| GPU Operator | ❌ 비권장 | NCP가 GPU Driver 관리 |
| Device Plugin + DCGM Exporter | ✅ 강력 추천 | 안정적 / 통제 쉬움 |
| DCGM Exporter 단독 | ❌ 불가 | Device Plugin 필수 |
👉 NCP GPU 노드는 이미 드라이버가 깔려 있음
👉 GPU Operator는 드라이버를 다시 관리하려다 충돌 위험
6️⃣ 구조로 보면 이렇게 다름
❌ GPU Operator 사용 시 (NCP)
[GPU Operator]
├─ NVIDIA Driver (충돌 가능)
├─ Device Plugin
├─ DCGM
└─ DCGM Exporter
├─ NVIDIA Driver (충돌 가능)
├─ Device Plugin
├─ DCGM
└─ DCGM Exporter
✅ NCP 권장 구조
[NCP GPU Node]
├─ (기본 제공) NVIDIA Driver
├─ NVIDIA Device Plugin (Helm)
├─ DCGM Exporter (Helm)
└─ Prometheus / Grafana
├─ (기본 제공) NVIDIA Driver
├─ NVIDIA Device Plugin (Helm)
├─ DCGM Exporter (Helm)
└─ Prometheus / Grafana
7️⃣ GPU Operator Helm Repo는 언제 쓰는 거야?
helm repo add nvidia https://nvidia.github.io/gpu-operator
이건 GPU Operator 설치용 Repo입니다.
사용 예 (참고용)
helm install gpu-operator nvidia/gpu-operator \
-n gpu-operator --create-namespace
-n gpu-operator --create-namespace
⚠️ NCP에서는 웬만하면 쓰지 마세요
8️⃣ 실무 체크리스트 (한 눈 정리)
NCP에서 해야 할 것 ✅
- NVIDIA Device Plugin 설치
- DCGM Exporter 설치
- Prometheus 연동
- Grafana 대시보드
NCP에서 하지 말 것 ❌
- GPU Operator 설치
- Driver DaemonSet 설치
- Operator가 Driver 관리하게 두기
9️⃣ 헷갈릴 때 기억할 한 문장
“NCP, EKS, GKE 같은 Managed Kubernetes에서는
GPU Operator 말고 Device Plugin + DCGM Exporter만 쓰자”
반응형
'[GPUaaS] > GPUmgt' 카테고리의 다른 글
| [NCP 실전] DCGM Exporter DaemonSet YAML 상세 해설 (0) | 2026.01.15 |
|---|---|
| [NCP 실전] GPU 노드 오토스케일링시 NVIDIA Device Plugin / DCGM Exporter 자동 설치 (DaemonSet) (0) | 2026.01.14 |
| [중요2][NCP 실전] Kubernetes→ NVIDIA Device Plugin→ DCGM Exporter→ Prometheus→ Grafana 설치 가이드 (0) | 2026.01.14 |
| [GPU가 놀고 있나?] “리부팅하라”는 명령이 절대 아니다. (0) | 2026.01.13 |
댓글