본문 바로가기
[GPUaaS]

[GPU] 사용량 대시보드 제공 & 월별 리포트 자동 생성 방법

by METAVERSE STORY 2026. 1. 7.
반응형

 

 

 

1. 전체 구성 아키텍처 한눈에 보기

 
[GPU Node / Pod] ↓ (GPU Metrics) [NVIDIA DCGM Exporter][Prometheus][Grafana] ── 실시간 GPU 대시보드 [Prometheus Metrics][Athena / S3 / Cost Data][Lambda / Batch][월별 GPU 사용 리포트][Slack / Email / S3]

2. GPU 사용량 수집 (필수)

2.1 NVIDIA DCGM Exporter 설치 (EKS)

GPU 메트릭 수집의 표준 도구입니다.

필수 구성 요소

  • NVIDIA Driver
  • NVIDIA Container Toolkit
  • DCGM Exporter
  • Prometheus

설치 방식 (Helm 권장)

 
helm repo add nvidia https://nvidia.github.io/dcgm-exporter helm install dcgm-exporter nvidia/dcgm-exporter \ --namespace monitoring

2.2 수집되는 주요 GPU 메트릭

메트릭의미
DCGM_FI_DEV_GPU_UTIL GPU 사용률 (%)
DCGM_FI_DEV_MEM_USED GPU 메모리 사용량
DCGM_FI_DEV_MEM_TOTAL 총 GPU 메모리
DCGM_FI_DEV_POWER_USAGE 전력 사용량
DCGM_FI_DEV_SM_CLOCK 연산 클럭

👉 정산 기준으로는 GPU 사용 시간 + 평균 사용률 조합이 가장 현실적


3. 실시간 GPU 사용량 대시보드 제공 (Grafana)


3.1 Grafana 구성 방식

  • 데이터 소스: Prometheus
  • 접근 방식: 사내 SSO / VPN
  • 테넌시: Namespace / Project 기준 분리

3.2 필수 대시보드 구성 항목 (권장)

① 전체 GPU 현황

  • 총 GPU 개수
  • 사용 중 GPU
  • 유휴 GPU
  • Spot vs On-Demand

② 팀/프로젝트별 GPU 사용량

  • Namespace 기준 GPU 사용률
  • 누적 GPU 사용 시간
  • GPU 점유 Top N

③ GPU 효율성 지표 ⭐

  • GPU Utilization 평균
  • GPU Idle 시간
  • GPU Memory 사용률

3.3 PromQL 예시 (실무용)

GPU 사용률 평균

 
avg by (namespace) ( DCGM_FI_DEV_GPU_UTIL )

GPU 사용 시간 (시간 단위)

 
sum by (namespace) ( rate(DCGM_FI_DEV_GPU_UTIL[1h]) > 0 )

3.4 운영 포인트

  • GPU 10% 미만 사용 Pod 경고
  • 장시간 GPU 점유 알림
  • Idle GPU 자동 종료 연계

4. 월별 GPU 사용 리포트 자동 생성 (정산용)


4.1 월별 리포트에서 반드시 필요한 항목

항목설명
팀 / 프로젝트 Namespace 기준
GPU 타입 T4 / A10 / A100
사용 시간 (GPU-Hour) 핵심 지표
평균 사용률 효율성 판단
비용 환산 내부 차지백

4.2 GPU 사용 시간 계산 로직 (중요)

기본 공식

 
GPU 사용 시간 = Σ (GPU가 할당된 Pod 실행 시간)

현실적인 정산 공식 (추천)

 
GPU 비용 = GPU-Hour × 단가 × 사용률 보정 계수

예:

  • GPU-Hour: 100h
  • A100 단가: 4,000원/h
  • 평균 사용률 50% → 보정 0.7

➡ 100 × 4,000 × 0.7 = 280,000원


5. 월별 리포트 자동화 구현 방식 (3가지)


방식 ① Prometheus + Lambda (가장 많이 사용)

구조

 
EventBridge (매월 1) ↓ Lambda ↓ Prometheus API Query ↓ CSV / JSON 생성 ↓ S3 저장 + Slack 전송

장점

  • 서버리스
  • 유지보수 최소
  • 자동화 용이

방식 ② Prometheus → S3 → Athena (정산 정확도 최고)

구조

 
Prometheus ↓ Metric Export (S3) ↓ Athena SQL ↓ 월별 GPU 사용 리포트

장점

  • 대규모 조직에 적합
  • 재무팀 연동 쉬움
  • 장기 데이터 보관

방식 ③ Grafana Report + 스케줄링 (간편)

  • Grafana Enterprise 기능
  • 월 1회 PDF 자동 생성
  • 관리자 보고용에 적합

6. 월별 리포트 예시 항목 (실제 운영 포맷)

팀프로젝트GPU사용시간(h)평균사용률비용
AI팀 LLM A100 320 78% 896,000
데이터팀 CV T4 210 45% 189,000

7. 운영 자동화 & 통제 포인트 ⭐

필수 자동화

  • GPU 유휴 시 자동 종료
  • GPU 장기 점유 알림
  • 리소스 쿼터 초과 차단

권장 정책

  • 평균 GPU 사용률 30% 미만 → 개선 대상
  • 야간 Spot GPU 우선 사용
  • 추론/학습 GPU 분리 운영

8. 실무에서 가장 많이 실패하는 포인트

❌ GPU 사용률만 보고 정산
❌ Pod 종료 후 메트릭 누락
❌ 팀/프로젝트 라벨 표준 없음
❌ 리포트 자동화 없이 수작업

👉 Namespace + Label 표준화가 정산 성공의 핵심


9. 정리

항목권장 도구
GPU 메트릭 수집 DCGM Exporter
실시간 대시보드 Prometheus + Grafana
월별 리포트 Lambda + S3 + Athena
정산 기준 GPU-Hour + 사용률

 

 

반응형

댓글