본문 바로가기
[GPUaaS]/GPUmgt

[GPU의 ECC(Error-Correcting Code)] nvidia-smi -e 1

by METAVERSE STORY 2026. 2. 6.
반응형

 

 

 

한 줄 요약

nvidia-smi -e 1 👉 GPU의 ECC(Error-Correcting Code) 메모리를 켠다는 뜻이야.


옵션 하나씩 뜯어보자

🔹 nvidia-smi

  • NVIDIA GPU 상태를 조회·설정하는 관리 도구
  • 드라이버 설치되면 기본으로 있음
  • GPU 설정은 컨테이너 안이 아니라 보통 “노드(host)”에서 실행

🔹 -e

  • ECC 모드 설정 옵션
  • GPU 메모리 오류를 자동으로 감지·수정할지 말지를 결정함

🔹 -e 1

  • 1 = ECC 활성화 (ON)
  • 반대로
    • -e 0 → ECC 비활성화 (OFF)

ECC가 뭐길래?

ECC는 GPU 메모리에서 발생하는 비트 오류를 자동으로 교정해주는 기능이야.

ECC ON (-e 1)

✅ 장점

  • 메모리 비트 오류 자동 수정
  • 장시간 학습, 과학 계산, 금융, 의료, HPC 환경에서 안정성 ↑
  • silent error(조용히 결과 틀리는 문제) 방지

❌ 단점

  • 사용 가능한 GPU 메모리 약 5~10% 감소
  • 성능이 아주 약간 떨어질 수 있음

ECC OFF (-e 0)

✅ 장점

  • 최대 메모리 사용 가능
  • 미세하게 성능 더 좋음

❌ 단점

  • 메모리 오류 발생 시 결과가 틀려도 모를 수 있음
  • 대규모 분산 학습에서 위험

실제 현업 기준 정리

환경 ECC 권장
연구/실험용 OFF도 가능
서비스/운영 ✅ ON
장시간 학습 ✅ ON
금융·의료·HPC 무조건 ON

실행 위치 중요 ⚠️

 
nvidia-smi -e 1

이건 반드시 GPU 노드의 host OS에서 실행해야 해
(컨테이너 안 ❌, Pod 안 ❌)

그리고 보통 이런 메시지가 뜬다:

 
ECC mode will be changed on next reboot

👉 리부팅 필요


현재 ECC 상태 확인

 
nvidia-smi -q | grep -i ecc

또는 GPU별로:

 
nvidia-smi -i 0 -q | grep -i ecc

MIG 쓰는 환경이면?

  • ECC 설정 → MIG 생성 전에 해야 함
  • 이미 MIG 만들어졌다면:
    1. MIG 제거
    2. nvidia-smi -e 1
    3. reboot
    4. MIG 다시 생성

 

 

 

반응형

댓글