반응형
1. 전체 구성 아키텍처 한눈에 보기
[GPU Node / Pod] ↓ (GPU Metrics) [NVIDIA DCGM Exporter] ↓ [Prometheus] ↓ [Grafana] ── 실시간 GPU 대시보드 [Prometheus Metrics] ↓ [Athena / S3 / Cost Data] ↓ [Lambda / Batch] ↓ [월별 GPU 사용 리포트] ↓ [Slack / Email / S3]
2. GPU 사용량 수집 (필수)
2.1 NVIDIA DCGM Exporter 설치 (EKS)
GPU 메트릭 수집의 표준 도구입니다.
필수 구성 요소
- NVIDIA Driver
- NVIDIA Container Toolkit
- DCGM Exporter
- Prometheus
설치 방식 (Helm 권장)
helm repo add nvidia https://nvidia.github.io/dcgm-exporter helm install dcgm-exporter nvidia/dcgm-exporter \ --namespace monitoring
2.2 수집되는 주요 GPU 메트릭
메트릭의미
| DCGM_FI_DEV_GPU_UTIL | GPU 사용률 (%) |
| DCGM_FI_DEV_MEM_USED | GPU 메모리 사용량 |
| DCGM_FI_DEV_MEM_TOTAL | 총 GPU 메모리 |
| DCGM_FI_DEV_POWER_USAGE | 전력 사용량 |
| DCGM_FI_DEV_SM_CLOCK | 연산 클럭 |
👉 정산 기준으로는 GPU 사용 시간 + 평균 사용률 조합이 가장 현실적
3. 실시간 GPU 사용량 대시보드 제공 (Grafana)
3.1 Grafana 구성 방식
- 데이터 소스: Prometheus
- 접근 방식: 사내 SSO / VPN
- 테넌시: Namespace / Project 기준 분리
3.2 필수 대시보드 구성 항목 (권장)
① 전체 GPU 현황
- 총 GPU 개수
- 사용 중 GPU
- 유휴 GPU
- Spot vs On-Demand
② 팀/프로젝트별 GPU 사용량
- Namespace 기준 GPU 사용률
- 누적 GPU 사용 시간
- GPU 점유 Top N
③ GPU 효율성 지표 ⭐
- GPU Utilization 평균
- GPU Idle 시간
- GPU Memory 사용률
3.3 PromQL 예시 (실무용)
GPU 사용률 평균
avg by (namespace) ( DCGM_FI_DEV_GPU_UTIL )
GPU 사용 시간 (시간 단위)
sum by (namespace) ( rate(DCGM_FI_DEV_GPU_UTIL[1h]) > 0 )
3.4 운영 포인트
- GPU 10% 미만 사용 Pod 경고
- 장시간 GPU 점유 알림
- Idle GPU 자동 종료 연계
4. 월별 GPU 사용 리포트 자동 생성 (정산용)
4.1 월별 리포트에서 반드시 필요한 항목
항목설명
| 팀 / 프로젝트 | Namespace 기준 |
| GPU 타입 | T4 / A10 / A100 |
| 사용 시간 (GPU-Hour) | 핵심 지표 |
| 평균 사용률 | 효율성 판단 |
| 비용 환산 | 내부 차지백 |
4.2 GPU 사용 시간 계산 로직 (중요)
기본 공식
GPU 사용 시간 = Σ (GPU가 할당된 Pod 실행 시간)
현실적인 정산 공식 (추천)
GPU 비용 = GPU-Hour × 단가 × 사용률 보정 계수
예:
- GPU-Hour: 100h
- A100 단가: 4,000원/h
- 평균 사용률 50% → 보정 0.7
➡ 100 × 4,000 × 0.7 = 280,000원
5. 월별 리포트 자동화 구현 방식 (3가지)
방식 ① Prometheus + Lambda (가장 많이 사용)
구조
EventBridge (매월 1일) ↓ Lambda ↓ Prometheus API Query ↓ CSV / JSON 생성 ↓ S3 저장 + Slack 전송
장점
- 서버리스
- 유지보수 최소
- 자동화 용이
방식 ② Prometheus → S3 → Athena (정산 정확도 최고)
구조
Prometheus ↓ Metric Export (S3) ↓ Athena SQL ↓ 월별 GPU 사용 리포트
장점
- 대규모 조직에 적합
- 재무팀 연동 쉬움
- 장기 데이터 보관
방식 ③ Grafana Report + 스케줄링 (간편)
- Grafana Enterprise 기능
- 월 1회 PDF 자동 생성
- 관리자 보고용에 적합
6. 월별 리포트 예시 항목 (실제 운영 포맷)
팀프로젝트GPU사용시간(h)평균사용률비용
| AI팀 | LLM | A100 | 320 | 78% | 896,000 |
| 데이터팀 | CV | T4 | 210 | 45% | 189,000 |
7. 운영 자동화 & 통제 포인트 ⭐
필수 자동화
- GPU 유휴 시 자동 종료
- GPU 장기 점유 알림
- 리소스 쿼터 초과 차단
권장 정책
- 평균 GPU 사용률 30% 미만 → 개선 대상
- 야간 Spot GPU 우선 사용
- 추론/학습 GPU 분리 운영
8. 실무에서 가장 많이 실패하는 포인트
❌ GPU 사용률만 보고 정산
❌ Pod 종료 후 메트릭 누락
❌ 팀/프로젝트 라벨 표준 없음
❌ 리포트 자동화 없이 수작업
👉 Namespace + Label 표준화가 정산 성공의 핵심
9. 정리
항목권장 도구
| GPU 메트릭 수집 | DCGM Exporter |
| 실시간 대시보드 | Prometheus + Grafana |
| 월별 리포트 | Lambda + S3 + Athena |
| 정산 기준 | GPU-Hour + 사용률 |
반응형
'[GPUaaS]' 카테고리의 다른 글
| [MLXP] GPU 효율화를 선도하는 대규모 MLOps 플랫폼 (0) | 2026.01.08 |
|---|---|
| [경영진 보고용] 월별 GPU 사용 PDF 리포트 자동 생성 (Lambda) (0) | 2026.01.07 |
| [GPU 사용률 보정 포함] 월별 GPU 리포트 Lambda (Advanced) (0) | 2026.01.07 |
| 월별 GPU 리포트 Lambda 코드 (Prometheus 기반) (0) | 2026.01.07 |
| [Prometheus] GPU 정산용 쿼리 모음 (실무 표준) (0) | 2026.01.07 |
| [사내 GPUaaS] 표준 아키텍처 문서 (0) | 2026.01.07 |
| [AWS / NCP / 온프레미스] GPUaaS 클러스터 아키텍처 예시 (0) | 2026.01.05 |
| [GPUaaS] 클러스터 사용현황 관리 방법 (0) | 2026.01.05 |
댓글