반응형 [GPUaaS]/Prometheus9 [NCP 실전] kubectl rollout restart statefulset prometheus-k8s -n monitoring 의미 🔍 명령어 원문 kubectl rollout restart statefulset prometheus-k8s -n monitoring 이 한 줄이 의미하는 것은:“Prometheus 서버를 무중단 방식으로 재시작해서새로운 AlertRule, ConfigMap, Secret 설정을 반영해라”이다. 1️⃣ 이 명령이 왜 필요한가?Prometheus는 다음 설정을 시작할 때만 로딩한다. 설정 예 AlertRulegpu-aas-alerts.yamlConfigMap알람 규칙SecretSlack, Email, ThanosruleSelectorgpu-alertsConfigMap을 수정해도Prometheus는 메모리 안에 옛 설정을 쓰고 있음.그래서:“파일은 바뀌었는데 Prometheus는 모르고 있음”→ 이 상.. 2026. 1. 14. [NCP 실전] Prometheus Alertmanager - AlertRule 적용 🎯 GPUaaS 장애 유형 유형 실제 현상 GPU Down노드에 GPU가 안 잡힘GPU 과부하학습, 추론 중 성능 저하GPU 메모리 부족모델 로딩 실패Pod PendingGPU 부족 or 스케줄링 실패Pod Hang컨테이너는 살아있는데 GPU 작업 안함GPU Idle자원 낭비1️⃣ GPUaaS 통합 AlertRule (GPU + Pod 포함) cat gpu-aas-alerts.yaml groups: - name: gpu-aas rules: # 1. GPU 자체 장애 - alert: GPUDown expr: nvidia_gpu_utilization == 0 for: 3m labels: severity: critical annotations: .. 2026. 1. 13. Thanos for Kubernetes in S3 with Grafana and Prometheus https://github.com/Bhoopesh123/thanos/blob/main/README_Thanos_Kubernetes.md thanos/README_Thanos_Kubernetes.md at main · Bhoopesh123/thanosContribute to Bhoopesh123/thanos development by creating an account on GitHub.github.com ## 타노스 시크릿 생성 - thanos-secret.yaml ## kubectl get secret/grafana -oyaml (비번확인) ## Grafana → Thanos Query 연결 ## Data Sources ==> Add data Source 선택 - 로컬데이터 수집 설정 .. 2026. 1. 13. [NCP 실전] NCP Kubernetes + Prometheus + Alertmanager 환경에Thanos + NCP Object Storage 연동 NCP Kubernetes + Prometheus + Alertmanager 환경에Thanos + NCP Object Storage(S3 API) 까지 붙이면 “GPU 장기 이력 + 감사 + 비용 분석” 이 완성됩니다.아래는 운영 환경에서 바로 쓰는 표준 설치 가이드 (명령어 중심) 입니다.🧩 전체 아키텍처 Prometheus │ (sidecar) ▼ Thanos Sidecar │ ▼ NCP Object Storage (S3 API) │ ▼ Thanos Store │ ▼ Thanos Query → Grafana 🧩 1️⃣ NCP Object Storage S3 정보 준비NCP 콘솔 → Object Storage → 버킷 생성예:Bucket: ncp-pr.. 2026. 1. 13. [NCP 실전] Kubernetes 내부 DNS 주소 규칙 Kubernetes Service에서 자동 생성되는 내부 DNS 주소입니다.아래 순서대로 보면 당신 NCP 클러스터에서 실제 URL을 정확히 확인할 수 있습니다.1️⃣ Prometheus Service 이름 확인 kubectl get svc -n monitoring 출력 예시: NAME TYPE CLUSTER-IP PORT(S) prometheus-operated ClusterIP 10.233.24.91 9090/TCP prometheus-stack-kube-prom-prometheus ClusterIP .. 2026. 1. 13. [NCP 실전] Kubernetes에 Prometheus + Grafana 모니터링 구성 NCP(Naver Cloud Platform) Kubernetes에 Prometheus + Grafana 모니터링 구성하는 상세 단계별 가이드입니다. NCP K8s환경에서도 일반 Kubernetes와 동일하게 Helm을 활용해 설치할 수 있습니다.📌 사전 준비kubectl이 클러스터에 연결되어 있어야 함helm 3 이상 설치(선택) Namespace 별로 설치 권장 예: monitoring📌 1) Helm 설치 (만약 없다면) # Helm 설치 스크립트 다운로드 curl -fsSL -o get_helm.sh https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3# 실행 권한 부여 & 설치 chmod 700 get_helm.sh ./ge.. 2026. 1. 12. Helm을 사용하여 Kubernetes에 Prometheus 설정 | Prometheus를 사용한 Kubernetes 모니터링 ## 실습 ## 헬름차트 사용 ## 헬름으로 프로메테우스 설치 (명령어)kubectl get pods kubectl get all ## prometheus-server 서비스를 노드포트 구성으로 외부 노출 필요kubectl get svc- NodePort 추가 생성kubectl expose service prometheus-server --type=NodePort --target-port=9090 --name=prometheus-server-ext minikube service prometheus-server-ext ## Status ==> Targets 정보 확인 ## 수집 메트릭 정보 확인 https://www.youtube.com/watch?v=hfKASyWzOIs 2026. 1. 12. [중요] 우분투 - Grafana Prometheus 를 사용한 서버 시각화!! Grafana Prometheus 를 사용한 서버 시각화 https://www.youtube.com/watch?v=2b6pIpPO1To [1] 프로메테우스 설치 (https://prometheus.io/download/) ## vi prometheus.yml 보기 ## 프로메테우스 그룹과 사용자 생성## sudo groupadd --system prometheus## sudo useradd --system -s /usr/sbin/nologin -g prometheus prometheus ## 권한변경## sudo chown prometheus:prometheus . -R ## root 스위치 유저 ## systemd 에 서비스 등록## cd /etc/systemd/system##.. 2026. 1. 12. [Prometheus] Node Exporter의 역할!! (@2025년 최신) 1. Prometheus와 Node Exporter의 관계 (2025년 기준)Prometheus는 오픈소스 모니터링 및 알림 시스템으로, 메트릭 데이터를 수집·저장·조회하는 역할을 합니다. 하지만 Prometheus 자체는 서버나 운영체제의 리소스를 직접 들여다보지 못하기 때문에, 실제 하드웨어와 OS 메트릭을 노출하는 Node Exporter가 함께 설치되는 경우가 많습니다. Node Exporter는 Linux/Unix 기반 서버의 시스템 자원 지표를 HTTP /metrics 엔드포인트를 통해 노출하여 Prometheus가 스크랩할 수 있도록 해줍니다.2025년 현재 Prometheus와 Node Exporter 조합은 가장 널리 쓰이는 서버 모니터링 스택이며, 클라우드 환경과 온프레미스 환경 모두에.. 2025. 10. 3. 이전 1 다음 반응형