본문 바로가기
[GPUaaS]/GPUmgt

[Syslog] mlx5_core ... Detected insufficient power on the PCIe slot (27W)

by METAVERSE STORY 2026. 2. 21.
반응형

 

 

 

 

mlx5_core ... Detected insufficient power on the PCIe slot (27W)

이건 정상 상태가 아닙니다.
 

 

 


1️⃣ 이 메시지의 정확한 의미

이 로그는 보통 Mellanox NIC(IB 카드) 드라이버에서 나옵니다.
해당 장비는 현재는 NVIDIA 산하 제품입니다.

의미는:

🔌 해당 PCIe 슬롯이 카드가 요구하는 전력보다 낮은 전력을 공급하고 있다.

예:

  • 카드 요구 전력: 75W
  • 실제 공급: 27W
    → 비정상 상태

 

 


2️⃣ 그럼 학습이 아예 안 되나요?

✔ 경우 1: NIC 문제일 경우 (mlx5_core 로그라면 이 가능성 높음)

  • GPU는 정상 동작
  • 단일 노드 학습은 가능
  • 분산 통신(IB)이 불안정

 

👉 이 경우:

  • 학습은 시작됨
  • 통신 중 에러 발생 가능
  • NCCL hang
  • watchdog 발생
  • 또는 통신 데이터 깨짐 → NaN 가능

즉,

❗ 학습은 “수행은 되지만” 중간에 문제 발생 가능


✔ 경우 2: GPU 슬롯 전력 부족일 경우

GPU 전력 부족이면:

  • 연산 오류
  • CUDA 에러
  • Xid 에러
  • driver reset
  • 심하면 학습 시작도 못 함

이 경우는 훨씬 심각합니다.

 

 


3️⃣ NaN과 직접 연결되나?

직접 원인은 아님

전력 부족이 곧바로 NaN을 만들지는 않습니다.

하지만 간접적으로 가능

흐름 예시:

 
 
PCIe 전력 부족
→ 통신 에러
→ 일부 rank 데이터 깨짐
→ 잘못된 tensor 전달
→ gradient 비정상
→ NaN 발생
 

특히 다중 노드라면:

  • 1노드 통신 불안정
  • AllReduce 오염
  • 전체 NaN

 

 


4️⃣ 지금 상황에서 판단 포인트

확인해보셔야 할 것:

① GPU 쪽 Xid 있는가?

 
 
dmesg | grep -i xid
 

✔ 있다 → GPU 영향 가능성 있음
✔ 없다 → NIC 전력 문제 가능성 높음


② 해당 노드만 발생?

64노드 중 특정 노드만 이 로그 발생하면

→ 그 노드 drain 대상 후보


③ IB 포트 상태 확인

 
 
ibstat
 

포트 Down/Flapping 있으면 통신 문제 확률 높음

 

 


5️⃣ 운영 관점 결론

질문
학습 아예 안 되나? 보통 시작은 됨
중간에 멈추나? 가능성 높음
NaN 직접 원인? 직접은 아님
간접 원인? 가능성 있음
그냥 무시해도 되나? ❌ 절대 안 됨

 

 


6️⃣ 실전 권장 조치

1️⃣ 해당 노드 drain
2️⃣ 전원 케이블/슬롯 재장착
3️⃣ BIOS에서 PCIe power 확인
4️⃣ 다른 슬롯 이동 테스트
5️⃣ 계속 발생하면 H/W 교체 검토

 

 


🔥 중요한 포인트

insufficient power 로그는

⚠ "언젠가 문제 터질 수 있음" 신호입니다.

특히 이미:

  • watchdog 이력
  • 통신 스턱
  • NaN 발생 경험

있다면 이 노드는 의심 대상입니다.

 

 

 

반응형

댓글