[대규모 AI 서비스] 운영을 위한 Kubernetes GPU 클러스터 도입기

- 모델 학습 없이 AI 이미지 생성만 하는 경우

- 모델 학습과 이미지 생성 둘 다 필요한 경우

- 학습과 생성에 동일한 GPU를 사용해야 성능에 좋음

- GPU device id 를 쿠버네티스가 자제적으로 부여함

- nvidia-device-plugin 은 복수 컨테이너의 동일한 GPU 사용을 허용하지 않음

(20분)

- 여러 컨테이너/파드가 GPU를 나눠쓰기 위한 방법들
1) GPU당 할당 가능한 파드 개수 조정
2) GPU 자원을 여러 개로 분할
3) 파드별 GPU 사용 순서를 제어

## 유연한 GPU 스케줄링 및 인프라 이전을 위한 더 구체적인 요구사항 (28분)

- 오픈소스 프로젝트 : HAMI

https://www.youtube.com/watch?v=cUn5KjNGiuI

[DCGM Diagnostics] Kubernetes Job 실전 예제 (0)	2026.01.10
[DCGM 진단이란?] NVIDIA 공식 헬스 체크 도구 (0)	2026.01.10
[GPU 장애] 유형별 원인 분석 리포트 (1)	2026.01.10
[GPU 검증 결과] 월별 GPU 리포트 자동 생성 (2)	2026.01.10
[CUDA 샘플] Kubernetes GPU 노드 검증 가이드 (0)	2026.01.09
CUDA 샘플(CUDA Samples)이란? (0)	2026.01.09
멀티모달 AI란 무엇인가? (1)	2026.01.08
[네이버클라우드플랫폼] 쿠버네티스 서비스 활용하기 (OLD) (1)	2026.01.08

댓글