🔍 명령어 원문

kubectl rollout restart statefulset prometheus-k8s -n monitoring

이 한 줄이 의미하는 것은:

“Prometheus 서버를 무중단 방식으로 재시작해서
새로운 AlertRule, ConfigMap, Secret 설정을 반영해라”

이다.

1️⃣ 이 명령이 왜 필요한가?

Prometheus는 다음 설정을 시작할 때만 로딩한다.

설정	예
AlertRule	gpu-aas-alerts.yaml
ConfigMap	알람 규칙
Secret	Slack, Email, Thanos
ruleSelector	gpu-alerts

ConfigMap을 수정해도
Prometheus는 메모리 안에 옛 설정을 쓰고 있음.

그래서:

“파일은 바뀌었는데 Prometheus는 모르고 있음”

→ 이 상태를 해결하는 게 rollout restart

2️⃣ 왜 delete pod가 아니라 rollout restart 인가?

Prometheus는 StatefulSet으로 운영됨

방식	결과
pod 삭제	강제 종료 → 데이터 손실 위험
rollout restart	안전한 순서 재시작

rollout restart는 내부적으로:

prometheus-k8s-0 종료 → 새 prometheus-k8s-0 생성 → 설정 다시 로딩 → 기존 데이터 유지

즉,
TSDB(시계열 데이터) 보존 + 설정 갱신

3️⃣ 이게 GPUaaS에서 중요한 이유

GPUaaS 알람은:

상황	의미
GPU hang	학습 중단
Pod Pending	고객 불만
GPU Idle	돈 낭비

AlertRule을 수정했는데
Prometheus가 reload 안 하면:

“장애가 나도 알람이 안 옴”

→ 운영사고

그래서 변경 후 반드시:

kubectl rollout restart statefulset prometheus-k8s -n monitoring

4️⃣ 실제로 무슨 일이 일어나나?

실행하면 내부적으로:

1. Prometheus Pod 종료
2. 새 Pod 생성
3. ConfigMap 다시 읽음
4. AlertRule 다시 로딩
5. 알람 평가 재시작

확인:

kubectl get pods -n monitoring -w

보면:

prometheus-k8s-0 Terminating
prometheus-k8s-0 Running

5️⃣ 언제 이걸 실행해야 하나?

아래 중 하나라도 바꿨다면 반드시 실행:

변경한 것	예
AlertRule	gpu-aas-alerts.yaml
Alertmanager	Slack / Email
Thanos	S3 설정
Prometheus 설정	ruleSelector, scrape

🎯 요약

이 명령은:

“GPUaaS의 심장(Prometheus)을
새 규칙으로 다시 부팅하는 안전한 방법”

이다.

저작자표시 비영리 변경금지 (새창열림)

'[GPUaaS] > Prometheus' 카테고리의 다른 글

[NCP 실전] Prometheus Alertmanager - AlertRule 적용 (0)	2026.01.13
Thanos for Kubernetes in S3 with Grafana and Prometheus (1)	2026.01.13
[NCP 실전] NCP Kubernetes + Prometheus + Alertmanager 환경에Thanos + NCP Object Storage 연동 (0)	2026.01.13
[NCP 실전] Kubernetes 내부 DNS 주소 규칙 (0)	2026.01.13
[NCP 실전] Kubernetes에 Prometheus + Grafana 모니터링 구성 (0)	2026.01.12
Helm을 사용하여 Kubernetes에 Prometheus 설정 \| Prometheus를 사용한 Kubernetes 모니터링 (0)	2026.01.12
[중요] 우분투 - Grafana Prometheus 를 사용한 서버 시각화!! (2)	2026.01.12
[Prometheus] Node Exporter의 역할!! (@2025년 최신) (1)	2025.10.03

[NCP 실전] kubectl rollout restart statefulset prometheus-k8s -n monitoring 의미

🔍 명령어 원문

1️⃣ 이 명령이 왜 필요한가?

2️⃣ 왜 delete pod가 아니라 rollout restart 인가?

3️⃣ 이게 GPUaaS에서 중요한 이유

4️⃣ 실제로 무슨 일이 일어나나?

5️⃣ 언제 이걸 실행해야 하나?

🎯 요약

'[GPUaaS] > Prometheus' 카테고리의 다른 글

댓글

티스토리툴바

[NCP 실전] kubectl rollout restart statefulset prometheus-k8s -n monitoring 의미

🔍 명령어 원문

1️⃣ 이 명령이 왜 필요한가?

2️⃣ 왜 delete pod가 아니라 rollout restart 인가?

3️⃣ 이게 GPUaaS에서 중요한 이유

4️⃣ 실제로 무슨 일이 일어나나?

5️⃣ 언제 이걸 실행해야 하나?

🎯 요약

'[GPUaaS] > Prometheus' 카테고리의 다른 글

관련글

댓글

티스토리툴바