본문 바로가기
[GPUaaS]/GPUmgt

[🚀 GPU] Fabric Manager란 무엇인가?

by METAVERSE STORY 2026. 4. 26.
반응형

 

 

🚀 1. Fabric Manager란 무엇인가?

📌 한 줄 정의

👉 여러 개의 GPU를 하나처럼 연결(NVSwitch)해서 쓰게 해주는 관리자 프로그램


📌 쉽게 이해하기

GPU가 8개 있는 서버를 생각해봅시다.

  • 그냥 GPU 8개 → 각각 따로 동작
  • NVSwitch + Fabric Manager → 하나의 거대한 GPU처럼 동작

📌 관련 핵심 기술

  • NVIDIA GPU 기술
  • NVLink → GPU끼리 고속 연결
  • NVSwitch → GPU 전체를 스위치처럼 연결
  • Fabric Manager → 이 연결을 관리하는 소프트웨어

📌 왜 필요할까?

특히 이런 환경에서 필수입니다:

  • H100 / H200 / A100 GPU 서버
  • AI 학습 (PyTorch / TensorFlow)
  • NCCL 통신 (all_reduce 등)

👉 없으면?

  • GPU 간 통신 느려짐
  • 멀티 GPU 학습 장애 발생
  • NCCL timeout 발생 가능

🧠 2. systemctl status nvidia-fabricmanager 명령어란?

📌 명령어 의미

 
systemctl status nvidia-fabricmanager
 

👉 의미:

"Fabric Manager 서비스가 정상적으로 실행 중인지 확인"


📌 구성 요소 설명

항목 설명
systemctl 리눅스 서비스 관리 명령어
status 현재 상태 조회
nvidia-fabricmanager Fabric Manager 서비스 이름

🔍 3. 실제 출력 결과 해석 (중요 ⭐)

📌 정상 상태 예시

 
● nvidia-fabricmanager.service - NVIDIA fabric manager service
Loaded: loaded (/usr/lib/systemd/system/nvidia-fabricmanager.service; enabled)
Active: active (running)
Main PID: 2939 (nv-fabricmanager)
 

📌 항목별 설명

✅ 1. Loaded

 
Loaded: loaded (...; enabled)
 
  • 서비스 파일 정상 로드됨
  • enabled → 부팅 시 자동 실행

✅ 2. Active (핵심)

 
Active: active (running)
 

👉 이게 가장 중요

상태의미
active (running) 정상
inactive 꺼짐
failed 장애 발생

✅ 3. Main PID

 
Main PID: 2939
 
  • 현재 실행 중인 프로세스 ID

✅ 4. Tasks / Memory

 
Tasks: 18
Memory: 50MB
 
  • 서비스가 사용하는 리소스

⚠️ 4. 문제 발생 시 상태 유형

❌ 1. 서비스 죽음

 
Active: inactive (dead)
 

👉 의미:

  • Fabric Manager 꺼짐
  • NVSwitch 동작 안함

❌ 2. 장애 상태

 
Active: failed
 

👉 원인:

  • 드라이버 문제
  • NVSwitch 오류
  • GPU 이상
  • 커널 충돌

❌ 3. 조회 자체 실패

 
Failed to retrieve unit state: Connection timed out
 

👉 이건 매우 중요

가능한 원인:

  • systemd 문제
  • 노드 hang 상태
  • 네트워크 장애
  • 커널 lockup
  • Fabric Manager 내부 deadlock

🛠️ 5. 문제 해결 방법 (실무 핵심)

✅ 1단계: 서비스 재시작

 
systemctl restart nvidia-fabricmanager
 

✅ 2단계: 상태 확인

 
systemctl status nvidia-fabricmanager
 

✅ 3단계: 로그 확인

 
journalctl -u nvidia-fabricmanager -n 100
 

✅ 4단계: GPU 상태 확인

 
nvidia-smi
 

👉 체크 포인트:

  • GPU 정상 인식?
  • NVLink 상태?
  • 에러 메시지?

✅ 5단계: NVSwitch 확인

 
nvidia-smi topo -m
 

👉 NVLink/NVSwitch 연결 확인


🔥 6단계: 그래도 안되면 (현실적인 방법)

 
reboot
 

👉 이유:

  • Fabric Manager는 커널/하드웨어 레벨
  • 대부분 재부팅으로 복구됨

⚡ 6. 실무에서 중요한 포인트

📌 Slurm 환경에서 영향

  • Fabric Manager 죽으면:
    • NCCL timeout 발생
    • PyTorchJob 실패
    • GPU 통신 느려짐

📌 특히 이런 증상 나오면 의심

  • BROADCAST timeout
  • NCCL WARN
  • GPU 간 속도 급감

👉 거의 80% Fabric Manager or NVSwitch 문제


🧩 7. 정리 (한 번에 이해)

✔️ 핵심 요약

  • Fabric Manager = GPU 연결 관리자
  • NVSwitch 환경에서 필수
  • 상태 확인 명령어:
 
systemctl status nvidia-fabricmanager
 

✔️ 정상 상태

 
Active: active (running)
 

✔️ 문제 해결 순서

  1. restart
  2. 로그 확인
  3. nvidia-smi 확인
  4. 재부팅

🎯 8. 한 줄 결론

👉 Fabric Manager는 "GPU를 하나처럼 묶어주는 핵심 서비스"이며, 죽으면 멀티 GPU 학습이 사실상 불가능해진다

 

 

반응형

댓글