반응형
한 줄 요약
nvidia-smi -e 1 👉 GPU의 ECC(Error-Correcting Code) 메모리를 켠다는 뜻이야.
옵션 하나씩 뜯어보자
🔹 nvidia-smi
- NVIDIA GPU 상태를 조회·설정하는 관리 도구
- 드라이버 설치되면 기본으로 있음
- GPU 설정은 컨테이너 안이 아니라 보통 “노드(host)”에서 실행
🔹 -e
- ECC 모드 설정 옵션
- GPU 메모리 오류를 자동으로 감지·수정할지 말지를 결정함
🔹 -e 1
- 1 = ECC 활성화 (ON)
- 반대로
- -e 0 → ECC 비활성화 (OFF)
ECC가 뭐길래?
ECC는 GPU 메모리에서 발생하는 비트 오류를 자동으로 교정해주는 기능이야.
ECC ON (-e 1)
✅ 장점
- 메모리 비트 오류 자동 수정
- 장시간 학습, 과학 계산, 금융, 의료, HPC 환경에서 안정성 ↑
- silent error(조용히 결과 틀리는 문제) 방지
❌ 단점
- 사용 가능한 GPU 메모리 약 5~10% 감소
- 성능이 아주 약간 떨어질 수 있음
ECC OFF (-e 0)
✅ 장점
- 최대 메모리 사용 가능
- 미세하게 성능 더 좋음
❌ 단점
- 메모리 오류 발생 시 결과가 틀려도 모를 수 있음
- 대규모 분산 학습에서 위험
실제 현업 기준 정리
| 환경 | ECC 권장 |
| 연구/실험용 | OFF도 가능 |
| 서비스/운영 | ✅ ON |
| 장시간 학습 | ✅ ON |
| 금융·의료·HPC | 무조건 ON |
실행 위치 중요 ⚠️
nvidia-smi -e 1
이건 반드시 GPU 노드의 host OS에서 실행해야 해
(컨테이너 안 ❌, Pod 안 ❌)
그리고 보통 이런 메시지가 뜬다:
ECC mode will be changed on next reboot
👉 리부팅 필요
현재 ECC 상태 확인
nvidia-smi -q | grep -i ecc
또는 GPU별로:
nvidia-smi -i 0 -q | grep -i ecc
MIG 쓰는 환경이면?
- ECC 설정 → MIG 생성 전에 해야 함
- 이미 MIG 만들어졌다면:
- MIG 제거
- nvidia-smi -e 1
- reboot
- MIG 다시 생성
반응형
'[GPUaaS] > GPUmgt' 카테고리의 다른 글
| [NCP] SSL VPN 다운로드 (0) | 2026.02.09 |
|---|---|
| 🚨[ NCCL Hang 발생 시] ECC + IB 점검 체크리스트 (실전용) (0) | 2026.02.06 |
| [ECC ON / OFF] MIG · NCCL · 성능 영향 정리 (0) | 2026.02.06 |
| [쿠버네티스 명령어 모음] (0) | 2026.02.06 |
| [NCCL] NVIDIA Collective Communications Library (0) | 2026.02.03 |
| [DDN(DataDirect Networks)] AI·HPC용 고성능 스토리지의 교과서 (0) | 2026.02.03 |
| [중요2][NCP 실전] NKS 쿠버네티스 설치 - 제9회 K PaaS 활용 공모전 온라인 교육 NAVER Cloud (0) | 2026.01.24 |
| [GPU 클러스터] InfiniBand Cluster !! (0) | 2026.01.23 |
댓글