반응형
1️⃣ ECC가 GPU에 미치는 기본 영향
| 항목 | ECC ON | ECC OFF |
| 메모리 안정성 | ✅ 오류 자동 교정 | ❌ 오류 방치 |
| 사용 가능 VRAM | 🔻 5~10% 감소 | 🔺 100% |
| 성능 | 🔻 미세 감소 (1~3%) | 🔺 최대 |
| Silent Error | ❌ 거의 없음 | ⚠️ 발생 가능 |
| 운영 적합성 | ✅ 운영/서비스 | ❌ 실험용 |
👉 **ECC는 “성능 옵션”이 아니라 “신뢰성 옵션”**임
2️⃣ ECC ↔ MIG 관계 (이거 중요 ⚠️)
✅ ECC는 MIG의 전제 조건
- MIG 모드 ON/OFF 전
- MIG 인스턴스 생성 전
에 ECC 설정이 고정됨
nvidia-smi -e 1 # ECC ON
reboot
nvidia-smi -mig 1
🔥 이미 MIG가 켜져 있으면?
ECC 변경 불가능
❌ 잘못된 순서:
MIG 생성 → ECC 변경 시도 → 실패
✅ 올바른 순서:
MIG 제거
→ ECC 설정
→ reboot
→ MIG 재생성
ECC에 따른 MIG 영향
| 항목 | ECC ON | ECC OFF |
| MIG 생성 | 가능 | 가능 |
| MIG 안정성 | ✅ 매우 안정 | ⚠️ 장시간 불안 |
| MIG 메모리 | 🔻 각 인스턴스당 감소 | 🔺 최대 |
| 멀티테넌시 | ✅ 추천 | ❌ 위험 |
👉 MIG + 다중 사용자 = ECC ON 거의 필수
3️⃣ ECC ↔ NCCL 영향 (실무에서 제일 큼)
NCCL이 민감한 이유
- GPU 간 AllReduce / Broadcast
- InfiniBand / RoCE 기반 통신
- 한 비트만 틀려도 전체 학습 hang / 결과 깨짐
ECC OFF 상태에서 실제로 생기는 문제
증상원인
| NCCL hang | GPU 메모리 bit flip |
| 학습 중 무한 대기 | rank 간 checksum 불일치 |
| loss 갑자기 NaN | 파라미터 깨짐 |
| 재현 불가 오류 | Silent Error |
📌 로그도 안 남고 그냥 멈추는 경우 많음
ECC ON 효과
| 항목 | 영향 |
| NCCL 안정성 | ✅ 대폭 상승 |
| 장시간 학습 | ✅ 안전 |
| 대규모 노드 | ✅ 필수 |
| 디버깅 비용 | 🔻 급감 |
👉 NCCL hang 나면 1순위 점검: ECC 상태
4️⃣ 성능 영향 (숫자로 체감 정리)
단일 GPU 학습
- ECC ON → 1~3% 성능 감소
- 체감 거의 없음
MIG 환경
- MIG는 이미 자원 분할
- ECC 오버헤드 상대적으로 더 작음
- 대신 안정성 차이는 큼
멀티 GPU + NCCL
- ECC OFF → 평균 성능은 좋을 수 있음
- 하지만 한 번이라도 오류 나면 전체 작업 실패
- ECC ON → 평균 성능은 약간 ↓, 완주율 100%
👉 운영 관점에서는 ECC ON이 실질 성능 더 높음
5️⃣ 운영/연구 환경별 권장 설정
🔬 연구·개발
- 단일 GPU
- 짧은 실험
➡️ ECC OFF 가능
🧪 분산 학습
- NCCL
- 2 GPU 이상
➡️ ECC ON 강력 추천
🏭 운영·서비스
- K8s
- MIG
- 다중 사용자
➡️ ECC ON 필수
6️⃣ NCP / K8s 실운영 표준 (추천)
[GPU 노드 초기 세팅]
1. nvidia-smi -e 1
2. reboot
3. nvidia-smi -mig 1
4. MIG profile 생성
5. kubelet / device-plugin 기동
📌 노드 프로비저닝 시 UserData / Cloud-init으로 고정 추천
7️⃣ 한 줄 결론
ECC OFF = 벤치마크용
ECC ON = 운영용 생존 옵션
특히
MIG + NCCL + 장시간 학습이면
ECC 끄는 건 진짜로 “지뢰밭”이야 💣
반응형
'[GPUaaS] > GPUmgt' 카테고리의 다른 글
| [MBR(msdos) 파티션] MBR 방식 = 2TB 한계 / GPT 방식 (2TB 제한 제거 🔥) (0) | 2026.02.12 |
|---|---|
| [GPU/SCP/파일질라] nvidia-bug-report.sh 위치 (0) | 2026.02.09 |
| [NCP] SSL VPN 다운로드 (0) | 2026.02.09 |
| 🚨[ NCCL Hang 발생 시] ECC + IB 점검 체크리스트 (실전용) (0) | 2026.02.06 |
| [쿠버네티스 명령어 모음] (0) | 2026.02.06 |
| [GPU의 ECC(Error-Correcting Code)] nvidia-smi -e 1 (0) | 2026.02.06 |
| [NCCL] NVIDIA Collective Communications Library (0) | 2026.02.03 |
| [DDN(DataDirect Networks)] AI·HPC용 고성능 스토리지의 교과서 (0) | 2026.02.03 |
댓글