본문 바로가기
[GPUaaS]

[대규모 AI 서비스] 운영을 위한 Kubernetes GPU 클러스터 도입기

by METAVERSE STORY 2026. 1. 9.
반응형

 

 

 

 

 

 

 

 

 

- 모델 학습 없이 AI 이미지 생성만 하는 경우

 

- 모델 학습과 이미지 생성 둘 다 필요한 경우

 

 

- 학습과 생성에 동일한 GPU를 사용해야 성능에 좋음

 

- GPU device id 를 쿠버네티스가 자제적으로 부여함

 

- nvidia-device-plugin 은 복수 컨테이너의 동일한 GPU 사용을 허용하지 않음

 

 

 

 

 

 

 

(20분)

 

- 여러 컨테이너/파드가 GPU를 나눠쓰기 위한 방법들
1) GPU당 할당 가능한 파드 개수 조정
2) GPU 자원을 여러 개로 분할
3) 파드별 GPU 사용 순서를 제어

 

 

 

## 유연한 GPU 스케줄링 및 인프라 이전을 위한 더 구체적인 요구사항 (28분)

 

- 오픈소스 프로젝트 : HAMI

 

 

 

 

 

 

 

 

 

 

https://www.youtube.com/watch?v=cUn5KjNGiuI

 

반응형

댓글