반응형
GPUaaS 운영자 입장에서는 Grafana Alerting이 훨씬 쉽고 빠르다.
PrometheusRule 방식은:
- GitOps, 대규모 클러스터엔 좋지만
- 설정 난이도 높고
- 수정할 때마다 kubectl 필요
Grafana Alerting은:
- UI 클릭으로 끝
- 바로 테스트 가능
- Slack 연동이 훨씬 직관적
그래서 GPUaaS 운영 알람은 Grafana Alerting이 실무 표준이다.
아래를 그대로 따라 하면
👉 GPU 장시간 Idle (gpu-node-3) 이 Slack으로 날아간다.
🧭 전체 구조
Prometheus → Grafana Alert Rule → Contact Point(Slack) → Slack
1️⃣ Grafana에 Slack 연동 (Contact Point 만들기)
Grafana → Alerting → Contact points → New contact point
| 항목 | 값 |
| Name | slack-gpu |
| Type | Slack |
| Webhook URL | https://hooks.slack.com/services/T000/B000/XXXX |
| Channel | #gpu-alerts |
→ Save
2️⃣ Notification Policy 설정
Grafana → Alerting → Notification policies
- Default policy 클릭
- Contact point → slack-gpu
- Save
→ 이제 모든 Alert가 Slack으로 감
3️⃣ GPU Idle AlertRule 만들기
Grafana → Alerting → Alert rules → New alert rule
Step A — Query
Data source: Prometheus
Query:
avg by(instance) (nvidia_gpu_utilization)
Step B — Condition
WHEN avg() OF A IS BELOW 5
FOR 30 minutes
FOR 30 minutes
Grafana UI에서:
- Reduce: avg()
- Threshold: < 5
- For: 30m
Step C — Labels
| Key | Value |
| severity | info |
| service | gpu-aas |
Step D — Summary
GPU 장시간 Idle ({{ $labels.instance }})
Step E — Folder & Save
Folder: GPUaaS
Rule name: GPUIdleTooLong
Save rule
4️⃣ 테스트
Grafana → Alert rules → GPUIdleTooLong → Preview
GPU 안 쓰는 노드가 있으면
→ State = Firing
Slack 확인
5️⃣ Slack에서 보이는 메시지
GPU 장시간 Idle (gpu-node-3)
severity: info
service: gpu-aas
severity: info
service: gpu-aas
🔥 이 방식이 GPUaaS에 좋은 이유
| 이유 | 설명 |
| 실시간 수정 | UI에서 즉시 변경 |
| 운영팀 친화 | kubectl 필요 없음 |
| 테스트 쉬움 | Preview 버튼 |
| Alert 관리 | Silence, Mute UI 제공 |
| 확장 | PagerDuty, Email, Webhook 가능 |
🎯 정리
GPUaaS 환경에서는
Grafana Alerting이 PrometheusRule보다 훨씬 실무적이다.
지금 구성한 Grafana가 이미 Prometheus를 쓰고 있으니까
5분이면 GPU Idle → Slack 알림까지 완성된다.
반응형
'[GPUaaS] > Grafana' 카테고리의 다른 글
| [NCP 참고] Grafana Alert vs Prometheus Alertmanager 차이 (0) | 2026.01.13 |
|---|---|
| [NCP 실전] 참고 - 그라파나(Grafana) 대시보드 생성 (0) | 2026.01.13 |
| [NCP 실전] Grafana와 Slack 연동하여 Alert 설정하기 (0) | 2026.01.13 |
| [NCP 실전] 실무에서 가장 많이 쓰는 PromQL 템플릿 - Grafana의 Query Builder 쓰면 PromQL 자동 생성 (0) | 2026.01.13 |
댓글