🚀 1. Fabric Manager란 무엇인가?

📌 한 줄 정의

👉 여러 개의 GPU를 하나처럼 연결(NVSwitch)해서 쓰게 해주는 관리자 프로그램

📌 쉽게 이해하기

GPU가 8개 있는 서버를 생각해봅시다.

그냥 GPU 8개 → 각각 따로 동작
NVSwitch + Fabric Manager → 하나의 거대한 GPU처럼 동작

📌 관련 핵심 기술

NVIDIA GPU 기술
NVLink → GPU끼리 고속 연결
NVSwitch → GPU 전체를 스위치처럼 연결
Fabric Manager → 이 연결을 관리하는 소프트웨어

📌 왜 필요할까?

특히 이런 환경에서 필수입니다:

H100 / H200 / A100 GPU 서버
AI 학습 (PyTorch / TensorFlow)
NCCL 통신 (all_reduce 등)

👉 없으면?

GPU 간 통신 느려짐
멀티 GPU 학습 장애 발생
NCCL timeout 발생 가능

🧠 2. systemctl status nvidia-fabricmanager 명령어란?

📌 명령어 의미

systemctl status nvidia-fabricmanager

👉 의미:

"Fabric Manager 서비스가 정상적으로 실행 중인지 확인"

📌 구성 요소 설명

항목	설명
systemctl	리눅스 서비스 관리 명령어
status	현재 상태 조회
nvidia-fabricmanager	Fabric Manager 서비스 이름

🔍 3. 실제 출력 결과 해석 (중요 ⭐)

📌 정상 상태 예시

● nvidia-fabricmanager.service - NVIDIA fabric manager service
 Loaded: loaded (/usr/lib/systemd/system/nvidia-fabricmanager.service; enabled)
 Active: active (running)
 Main PID: 2939 (nv-fabricmanager)

📌 항목별 설명

✅ 1. Loaded

Loaded: loaded (...; enabled)

서비스 파일 정상 로드됨
enabled → 부팅 시 자동 실행

✅ 2. Active (핵심)

Active: active (running)

👉 이게 가장 중요

상태의미

active (running)	정상
inactive	꺼짐
failed	장애 발생

✅ 3. Main PID

Main PID: 2939

현재 실행 중인 프로세스 ID

✅ 4. Tasks / Memory

Tasks: 18
Memory: 50MB

서비스가 사용하는 리소스

⚠️ 4. 문제 발생 시 상태 유형

❌ 1. 서비스 죽음

Active: inactive (dead)

👉 의미:

Fabric Manager 꺼짐
NVSwitch 동작 안함

❌ 2. 장애 상태

Active: failed

👉 원인:

드라이버 문제
NVSwitch 오류
GPU 이상
커널 충돌

❌ 3. 조회 자체 실패

Failed to retrieve unit state: Connection timed out

👉 이건 매우 중요

가능한 원인:

systemd 문제
노드 hang 상태
네트워크 장애
커널 lockup
Fabric Manager 내부 deadlock

🛠️ 5. 문제 해결 방법 (실무 핵심)

✅ 1단계: 서비스 재시작

systemctl restart nvidia-fabricmanager

✅ 2단계: 상태 확인

systemctl status nvidia-fabricmanager

✅ 3단계: 로그 확인

journalctl -u nvidia-fabricmanager -n 100

✅ 4단계: GPU 상태 확인

nvidia-smi

👉 체크 포인트:

GPU 정상 인식?
NVLink 상태?
에러 메시지?

✅ 5단계: NVSwitch 확인

nvidia-smi topo -m

👉 NVLink/NVSwitch 연결 확인

🔥 6단계: 그래도 안되면 (현실적인 방법)

reboot

👉 이유:

Fabric Manager는 커널/하드웨어 레벨
대부분 재부팅으로 복구됨

⚡ 6. 실무에서 중요한 포인트

📌 Slurm 환경에서 영향

Fabric Manager 죽으면:
- NCCL timeout 발생
- PyTorchJob 실패
- GPU 통신 느려짐

📌 특히 이런 증상 나오면 의심

BROADCAST timeout
NCCL WARN
GPU 간 속도 급감

👉 거의 80% Fabric Manager or NVSwitch 문제

🧩 7. 정리 (한 번에 이해)

✔️ 핵심 요약

Fabric Manager = GPU 연결 관리자
NVSwitch 환경에서 필수
상태 확인 명령어:

systemctl status nvidia-fabricmanager

✔️ 정상 상태

Active: active (running)

✔️ 문제 해결 순서

restart
로그 확인
nvidia-smi 확인
재부팅

🎯 8. 한 줄 결론

👉 Fabric Manager는 "GPU를 하나처럼 묶어주는 핵심 서비스"이며, 죽으면 멀티 GPU 학습이 사실상 불가능해진다

저작자표시 비영리 변경금지 (새창열림)

'[GPUaaS] > GPUmgt' 카테고리의 다른 글

[🚀GPU] VAST 스토리지 vs Lustre vs DDN 완전 정리 !! (0)	2026.05.18
[🚀 k9s 설치 방법] 실무 단축키 20개 완벽 가이드 (초보자용) (0)	2026.04.29
[k9s] Kubernetes를 터미널에서 쉽게 관리해주는 UI 도구 !! (0)	2026.04.29
[🚀 NVIDIA] NCCL, NVLink, InfiniBand 완벽 이해 (초보자용) (0)	2026.04.29
[🚀 GPU] MLXP vs Run.ai vs Slurm 완전 정리 !! (1)	2026.04.12
[🚀 GPU] FlashAttention 완벽 가이드 (초보자용) (0)	2026.04.12
[TFLOPS] Floating Point Operations Per Second !! (0)	2026.04.10
[리벨리온 NPU란?] NPU vs GPU 핵심 차이!! (0)	2026.04.07

[🚀 GPU] Fabric Manager란 무엇인가?

🚀 1. Fabric Manager란 무엇인가?

📌 한 줄 정의

📌 쉽게 이해하기

📌 관련 핵심 기술

📌 왜 필요할까?

🧠 2. systemctl status nvidia-fabricmanager 명령어란?

📌 명령어 의미

📌 구성 요소 설명

🔍 3. 실제 출력 결과 해석 (중요 ⭐)

📌 정상 상태 예시