본문 바로가기
[GPUaaS]/XID

[GPU] Xid 에러 종류 예시 & Xid 점검 명령어 !!

by METAVERSE STORY 2026. 3. 2.
반응형

 

 

 

 

부동소수점 연산 ↔ Xid 에러 ↔ 분산학습 문제


1️⃣ Xid 에러란?

Xid 에러
👉 NVIDIA GPU 드라이버가 커널 로그에 남기는 GPU 내부 오류 코드입니다.

확인 명령어:

 
 

dmesg -T | grep -i xid

 

또는

 
 
journalctl -k | grep -i xid
 

 


 

 

2️⃣ Xid 에러 종류 예시

Xid 번호 의미 위험도
13 Graphics SM warp exception
31 GPU memory page fault
43 GPU stopped processing 높음
79 GPU has fallen off the bus 매우 높음
94 ECC error 하드웨어 가능성

 

 


3️⃣ 부동소수점 연산과 직접적인 관계가 있나?

💡 핵심 결론

❌ 부동소수점 오차 자체가 Xid를 만들지는 않음
하지만 연산 중 하드웨어 이상이 있으면 Xid 발생 가능

 

 


4️⃣ 실제로 연결되는 경우

🔴 ① ECC 에러 → 계산 오류 → Xid 발생

GPU는 메모리에 ECC가 있습니다.

  • 연산 중 비트 뒤틀림 발생
  • ECC가 수정 못하면
  • Xid 94 / 48 / 63 등 발생

즉,

부동소수점 연산 도중 메모리 비트 깨짐 → Xid


🔴 ② Tensor Core 계산 중 내부 오류

딥러닝은:

  • FP16
  • BF16
  • Tensor Core 연산

을 매우 많이 수행

GPU 내부 ALU나 SM에서 오류 발생 시:

→ Xid 13
→ Xid 43


🔴 ③ PCIe / NVLink 불안정

분산학습에서 AllReduce 중:

  • NVLink 오류
  • PCIe 전력 부족
  • GPU 리셋

발생하면:

→ Xid 79
→ GPU has fallen off the bus

이건 계산 중단과 직접 연결

 

 


5️⃣ AllReduce mismatch 와 Xid 관계

경우 1️⃣

Xid 발생 → GPU 리셋 → 일부 rank 값 달라짐
→ AllReduce mismatch

경우 2️⃣

ECC correctable error 누적
→ 계산값 약간 다름
→ loss divergence


6️⃣ 중요한 구분

상황 Xid 발생?
단순 부동소수점 반올림 오차
GPU 메모리 비트 오류
SM 내부 연산 실패
전력 문제
NVLink CRC 에러

 

 


7️⃣ 실무 예시 

 

 
Xid 43
 

이건 보통:

  • GPU가 작업 중 멈춤
  • 드라이버가 리셋 시도
  • 분산학습 중이면 rank hang

발생합니다.

그럼 다른 노드에서는:

 
 
NCCL timeout
AllReduce mismatch
 

같이 터집니다.

 

 


8️⃣ 실제 점검 순서 (운영 관점)

1️⃣ Xid 로그 확인

 
 
journalctl -k | grep -i xid
 

2️⃣ ECC 상태 확인

 
 
nvidia-smi -q | grep -i ecc -A3
 

3️⃣ NVLink 상태

 
 
nvidia-smi nvlink -s
 

4️⃣ 전력 확인

 
 
nvidia-smi --query-gpu=power.draw,power.limit --format=csv
 

 

 


9️⃣ 핵심 요약

✔ 부동소수점 오차 = 정상 현상
✔ Xid = GPU 하드웨어/드라이버 문제
✔ 둘은 직접적 원인은 아님
✔ 하지만 연산 중 하드웨어 이상 → Xid → 학습 오류 가능

 

 

=======================================

 

 

✅ 명령어 전체 의미

 
dmesg -T | grep -i xid
 

👉 커널 로그에서 NVIDIA GPU 에러(Xid)만 찾아서 시간 포함해 출력


✅ 구성별 의미

① dmesg

👉 Linux 커널 로그 출력

  • 하드웨어 이벤트
  • 드라이버 메시지
  • PCIe 에러
  • GPU 오류
  • 메모리 오류
  • 디바이스 attach/detach

👉 OS가 감지한 하드웨어 수준 이벤트 기록


② -T

👉 로그 시간을 사람이 읽기 쉽게 변환

예:

❌ 기본

 
[123456.789]
 

✅ -T 옵션

 
Mon Mar 2 04:23:15 2026
 

③ | (파이프)

앞 명령어 결과를 뒤로 전달


④ grep -i xid

👉 Xid 포함된 줄만 필터

옵션:

옵션 의미
grep 문자열 검색
-i 대소문자 무시

✅ Xid가 뭐냐 (핵심)

Xid = NVIDIA GPU 오류 코드

GPU 내부에서 발생한 하드웨어 / 드라이버 / 실행 오류

 

✅ Xid 코드 위험도 예시

Xid 의미 위험도
13 Kernel execution error 보통 software
31 MMU fault 메모리 접근
43 GPU stopped processing 드라이버 / HW
79 GPU fallen off bus 매우 위험 (HW)
94 GPU reset 중간

✅ 실무에서 이렇게 사용함

최근 GPU 에러만 보기

 
dmesg -T | grep -i xid | tail -n 20
 

특정 GPU만

 
dmesg -T | grep "0000:XX:00"
 

실시간 감시

 
watch -n 1 'dmesg | grep -i xid'
 

 


 

✅ 한 줄 핵심

 
dmesg -T | grep -i xid
= GPU 장애 로그 확인 기본 명령어

 

 

 

 

반응형

댓글