반응형

🚀 1. Fabric Manager란 무엇인가?
📌 한 줄 정의
👉 여러 개의 GPU를 하나처럼 연결(NVSwitch)해서 쓰게 해주는 관리자 프로그램
📌 쉽게 이해하기
GPU가 8개 있는 서버를 생각해봅시다.
- 그냥 GPU 8개 → 각각 따로 동작
- NVSwitch + Fabric Manager → 하나의 거대한 GPU처럼 동작
📌 관련 핵심 기술
- NVIDIA GPU 기술
- NVLink → GPU끼리 고속 연결
- NVSwitch → GPU 전체를 스위치처럼 연결
- Fabric Manager → 이 연결을 관리하는 소프트웨어
📌 왜 필요할까?
특히 이런 환경에서 필수입니다:
- H100 / H200 / A100 GPU 서버
- AI 학습 (PyTorch / TensorFlow)
- NCCL 통신 (all_reduce 등)
👉 없으면?
- GPU 간 통신 느려짐
- 멀티 GPU 학습 장애 발생
- NCCL timeout 발생 가능
🧠 2. systemctl status nvidia-fabricmanager 명령어란?
📌 명령어 의미
systemctl status nvidia-fabricmanager
👉 의미:
"Fabric Manager 서비스가 정상적으로 실행 중인지 확인"
📌 구성 요소 설명
| 항목 | 설명 |
| systemctl | 리눅스 서비스 관리 명령어 |
| status | 현재 상태 조회 |
| nvidia-fabricmanager | Fabric Manager 서비스 이름 |
🔍 3. 실제 출력 결과 해석 (중요 ⭐)
📌 정상 상태 예시
● nvidia-fabricmanager.service - NVIDIA fabric manager service
Loaded: loaded (/usr/lib/systemd/system/nvidia-fabricmanager.service; enabled)
Active: active (running)
Main PID: 2939 (nv-fabricmanager)
Loaded: loaded (/usr/lib/systemd/system/nvidia-fabricmanager.service; enabled)
Active: active (running)
Main PID: 2939 (nv-fabricmanager)
📌 항목별 설명
✅ 1. Loaded
Loaded: loaded (...; enabled)
- 서비스 파일 정상 로드됨
- enabled → 부팅 시 자동 실행
✅ 2. Active (핵심)
Active: active (running)
👉 이게 가장 중요
상태의미
| active (running) | 정상 |
| inactive | 꺼짐 |
| failed | 장애 발생 |
✅ 3. Main PID
Main PID: 2939
- 현재 실행 중인 프로세스 ID
✅ 4. Tasks / Memory
Tasks: 18
Memory: 50MB
Memory: 50MB
- 서비스가 사용하는 리소스
⚠️ 4. 문제 발생 시 상태 유형
❌ 1. 서비스 죽음
Active: inactive (dead)
👉 의미:
- Fabric Manager 꺼짐
- NVSwitch 동작 안함
❌ 2. 장애 상태
Active: failed
👉 원인:
- 드라이버 문제
- NVSwitch 오류
- GPU 이상
- 커널 충돌
❌ 3. 조회 자체 실패
Failed to retrieve unit state: Connection timed out
👉 이건 매우 중요
가능한 원인:
- systemd 문제
- 노드 hang 상태
- 네트워크 장애
- 커널 lockup
- Fabric Manager 내부 deadlock
🛠️ 5. 문제 해결 방법 (실무 핵심)
✅ 1단계: 서비스 재시작
systemctl restart nvidia-fabricmanager
✅ 2단계: 상태 확인
systemctl status nvidia-fabricmanager
✅ 3단계: 로그 확인
journalctl -u nvidia-fabricmanager -n 100
✅ 4단계: GPU 상태 확인
nvidia-smi
👉 체크 포인트:
- GPU 정상 인식?
- NVLink 상태?
- 에러 메시지?
✅ 5단계: NVSwitch 확인
nvidia-smi topo -m
👉 NVLink/NVSwitch 연결 확인
🔥 6단계: 그래도 안되면 (현실적인 방법)
reboot
👉 이유:
- Fabric Manager는 커널/하드웨어 레벨
- 대부분 재부팅으로 복구됨
⚡ 6. 실무에서 중요한 포인트
📌 Slurm 환경에서 영향
- Fabric Manager 죽으면:
- NCCL timeout 발생
- PyTorchJob 실패
- GPU 통신 느려짐
📌 특히 이런 증상 나오면 의심
- BROADCAST timeout
- NCCL WARN
- GPU 간 속도 급감
👉 거의 80% Fabric Manager or NVSwitch 문제
🧩 7. 정리 (한 번에 이해)
✔️ 핵심 요약
- Fabric Manager = GPU 연결 관리자
- NVSwitch 환경에서 필수
- 상태 확인 명령어:
systemctl status nvidia-fabricmanager
✔️ 정상 상태
Active: active (running)
✔️ 문제 해결 순서
- restart
- 로그 확인
- nvidia-smi 확인
- 재부팅
🎯 8. 한 줄 결론
👉 Fabric Manager는 "GPU를 하나처럼 묶어주는 핵심 서비스"이며, 죽으면 멀티 GPU 학습이 사실상 불가능해진다
반응형
'[GPUaaS] > GPUmgt' 카테고리의 다른 글
| [🚀GPU] VAST 스토리지 vs Lustre vs DDN 완전 정리 !! (0) | 2026.05.18 |
|---|---|
| [🚀 k9s 설치 방법] 실무 단축키 20개 완벽 가이드 (초보자용) (0) | 2026.04.29 |
| [k9s] Kubernetes를 터미널에서 쉽게 관리해주는 UI 도구 !! (0) | 2026.04.29 |
| [🚀 NVIDIA] NCCL, NVLink, InfiniBand 완벽 이해 (초보자용) (0) | 2026.04.29 |
| [🚀 GPU] MLXP vs Run.ai vs Slurm 완전 정리 !! (1) | 2026.04.12 |
| [🚀 GPU] FlashAttention 완벽 가이드 (초보자용) (0) | 2026.04.12 |
| [TFLOPS] Floating Point Operations Per Second !! (0) | 2026.04.10 |
| [리벨리온 NPU란?] NPU vs GPU 핵심 차이!! (0) | 2026.04.07 |
댓글