본문 바로가기
[GPUaaS]/GPUmgt

[ECC ON / OFF] MIG · NCCL · 성능 영향 정리

by METAVERSE STORY 2026. 2. 6.
반응형

 

 

 

 

1️⃣ ECC가 GPU에 미치는 기본 영향

항목 ECC ON ECC OFF
메모리 안정성 ✅ 오류 자동 교정 ❌ 오류 방치
사용 가능 VRAM 🔻 5~10% 감소 🔺 100%
성능 🔻 미세 감소 (1~3%) 🔺 최대
Silent Error ❌ 거의 없음 ⚠️ 발생 가능
운영 적합성 ✅ 운영/서비스 ❌ 실험용

👉 **ECC는 “성능 옵션”이 아니라 “신뢰성 옵션”**임


2️⃣ ECC ↔ MIG 관계 (이거 중요 ⚠️)

✅ ECC는 MIG의 전제 조건

  • MIG 모드 ON/OFF 전
  • MIG 인스턴스 생성 전
    에 ECC 설정이 고정됨
 
nvidia-smi -e 1 # ECC ON
reboot
nvidia-smi -mig 1

🔥 이미 MIG가 켜져 있으면?

ECC 변경 불가능

❌ 잘못된 순서:

 
MIG 생성 → ECC 변경 시도 → 실패

✅ 올바른 순서:

 
MIG 제거
→ ECC 설정
→ reboot
→ MIG 재생성

 

 

ECC에 따른 MIG 영향


항목 ECC ON ECC OFF
MIG 생성 가능 가능
MIG 안정성 ✅ 매우 안정 ⚠️ 장시간 불안
MIG 메모리 🔻 각 인스턴스당 감소 🔺 최대
멀티테넌시 ✅ 추천 ❌ 위험

👉 MIG + 다중 사용자 = ECC ON 거의 필수


3️⃣ ECC ↔ NCCL 영향 (실무에서 제일 큼)

NCCL이 민감한 이유

  • GPU 간 AllReduce / Broadcast
  • InfiniBand / RoCE 기반 통신
  • 한 비트만 틀려도 전체 학습 hang / 결과 깨짐

ECC OFF 상태에서 실제로 생기는 문제

증상원인
NCCL hang GPU 메모리 bit flip
학습 중 무한 대기 rank 간 checksum 불일치
loss 갑자기 NaN 파라미터 깨짐
재현 불가 오류 Silent Error

📌 로그도 안 남고 그냥 멈추는 경우 많음


ECC ON 효과

항목 영향
NCCL 안정성 ✅ 대폭 상승
장시간 학습 ✅ 안전
대규모 노드 ✅ 필수
디버깅 비용 🔻 급감

👉 NCCL hang 나면 1순위 점검: ECC 상태


4️⃣ 성능 영향 (숫자로 체감 정리)

단일 GPU 학습

  • ECC ON → 1~3% 성능 감소
  • 체감 거의 없음

MIG 환경

  • MIG는 이미 자원 분할
  • ECC 오버헤드 상대적으로 더 작음
  • 대신 안정성 차이는 큼

멀티 GPU + NCCL

  • ECC OFF → 평균 성능은 좋을 수 있음
  • 하지만 한 번이라도 오류 나면 전체 작업 실패
  • ECC ON → 평균 성능은 약간 ↓, 완주율 100%

👉 운영 관점에서는 ECC ON이 실질 성능 더 높음


5️⃣ 운영/연구 환경별 권장 설정

🔬 연구·개발

  • 단일 GPU
  • 짧은 실험

➡️ ECC OFF 가능


🧪 분산 학습

  • NCCL
  • 2 GPU 이상

➡️ ECC ON 강력 추천


🏭 운영·서비스

  • K8s
  • MIG
  • 다중 사용자

➡️ ECC ON 필수


6️⃣ NCP / K8s 실운영 표준 (추천)

 
[GPU 노드 초기 세팅]
1. nvidia-smi -e 1
2. reboot
3. nvidia-smi -mig 1
4. MIG profile 생성
5. kubelet / device-plugin 기동

📌 노드 프로비저닝 시 UserData / Cloud-init으로 고정 추천


7️⃣ 한 줄 결론

ECC OFF = 벤치마크용
ECC ON = 운영용 생존 옵션

특히
MIG + NCCL + 장시간 학습이면
ECC 끄는 건 진짜로 “지뢰밭”이야 💣

 

 

 

반응형

댓글