본문 바로가기
[GPUaaS]/Grafana

[GPUaaS] 운영자 입장에서는 Grafana Alerting이 훨씬 쉽고 빠르다.

by METAVERSE STORY 2026. 1. 13.
반응형

 

 

GPUaaS 운영자 입장에서는 Grafana Alerting이 훨씬 쉽고 빠르다.

PrometheusRule 방식은:

  • GitOps, 대규모 클러스터엔 좋지만
  • 설정 난이도 높고
  • 수정할 때마다 kubectl 필요

 

Grafana Alerting은:

  • UI 클릭으로 끝
  • 바로 테스트 가능
  • Slack 연동이 훨씬 직관적

그래서 GPUaaS 운영 알람은 Grafana Alerting이 실무 표준이다.

 

 

 

아래를 그대로 따라 하면
👉 GPU 장시간 Idle (gpu-node-3) 이 Slack으로 날아간다.

 

 

 


🧭 전체 구조

 
Prometheus → Grafana Alert Rule → Contact Point(Slack) → Slack

 

 

 


1️⃣ Grafana에 Slack 연동 (Contact Point 만들기)

Grafana → Alerting → Contact points → New contact point

항목
Name slack-gpu
Type Slack
Webhook URL https://hooks.slack.com/services/T000/B000/XXXX
Channel #gpu-alerts

→ Save

 

 

 


2️⃣ Notification Policy 설정

Grafana → Alerting → Notification policies

  1. Default policy 클릭
  2. Contact point → slack-gpu
  3. Save

→ 이제 모든 Alert가 Slack으로 감


3️⃣ GPU Idle AlertRule 만들기

Grafana → Alerting → Alert rules → New alert rule

Step A — Query

Data source: Prometheus
Query:

 
avg by(instance) (nvidia_gpu_utilization)

 

 

 

 


Step B — Condition

 
WHEN avg() OF A IS BELOW 5
FOR 30 minutes
 
 
 

Grafana UI에서:

  • Reduce: avg()
  • Threshold: < 5
  • For: 30m

 

 

 


Step C — Labels

Key Value
severity info
service gpu-aas

 

 

 


Step D — Summary

 
GPU 장시간 Idle ({{ $labels.instance }})
 
 
 
 
 

 


Step E — Folder & Save

Folder: GPUaaS
Rule name: GPUIdleTooLong

Save rule

 

 

 


4️⃣ 테스트

Grafana → Alert rules → GPUIdleTooLong → Preview

GPU 안 쓰는 노드가 있으면
→ State = Firing

Slack 확인

 

 

 


5️⃣ Slack에서 보이는 메시지

 
GPU 장시간 Idle (gpu-node-3)
severity: info
service: gpu-aas
 
 
 
 
 

 

 


🔥 이 방식이 GPUaaS에 좋은 이유


이유 설명
실시간 수정 UI에서 즉시 변경
운영팀 친화 kubectl 필요 없음
테스트 쉬움 Preview 버튼
Alert 관리 Silence, Mute UI 제공
확장 PagerDuty, Email, Webhook 가능

 

 

 


🎯 정리

GPUaaS 환경에서는
Grafana Alerting이 PrometheusRule보다 훨씬 실무적이다.

지금 구성한 Grafana가 이미 Prometheus를 쓰고 있으니까
5분이면 GPU Idle → Slack 알림까지 완성된다.

 

 

반응형

댓글