본문 바로가기
[GPUaaS]

[MLXP] GPU 효율화를 선도하는 대규모 MLOps 플랫폼

by METAVERSE STORY 2026. 1. 8.
반응형

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

## GPU 클러스터 - 모니터링 아키텍처 (33분)

 

 

## GPU 플랫폼에서 발생하는 장애들 - 학습 장애의 66% 이상이 H/W (34분)

 

 

 

## GPU 모니터링 방법들 (36분)

 

 

## 장애별 대응 방법 

 

 

## OnCall 통계 - 장애 인지 시간 & 장애 해결 시간

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

https://www.youtube.com/watch?v=RUlE4CVGL_A&t=552s

 

 

반응형

댓글