반응형
1️⃣ 고성능 스토리지란
일반 스토리지(NAS, SAN)는 보통 이런 용도야.
- 파일 서버
- DB
- VM 디스크
- 업무 문서
👉 목표: 안정성, 편의성, 범용성
🔥 고성능 스토리지(HPC / AI Storage)의 목표는 다르다
항목일반 스토리지고성능 스토리지
| 핵심 목표 | 안정성 | 처리량·지연시간 |
| 지표 | IOPS | Throughput (GB/s) |
| 파일 크기 | 작음 | 매우 큼 (GB~TB) |
| 접근 방식 | 랜덤 | 대규모 순차 + 병렬 |
| 클라이언트 | 수십 | 수백~수천 노드 |
👉 AI 학습에서는
GPU가 데이터를 기다리면 = 돈이 타버린다 💸
그래서 스토리지가 GPU 속도를 따라가야 해.
2️⃣ DDN이 뭐냐? (한 줄 요약)
DDN은 AI·HPC 워크로드를 위해 태어난 ‘초병렬 파일 스토리지’ 회사
- 설립: 1998년
- 고객:
- NVIDIA
- OpenAI 계열
- Top500 슈퍼컴퓨터 다수
- 특징:
“GPU/CPU가 동시에 미친 듯이 읽어도 안 죽는 스토리지”
3️⃣ DDN이 강한 이유 (핵심 5가지)
① 압도적인 Throughput
- 단일 시스템:
- 수백 GB/s ~ 수 TB/s
- GPU 수백~수천 장이 동시에 접근 가능
👉 NAS처럼 “목 막힘”이 없음
② 병렬 파일 시스템 최적화
DDN은 보통 Lustre 기반으로 동작해.
Lustre 구조 간단 그림
[Client Nodes]
| | |
[OSS] [OSS] [OSS] ← 데이터 저장
\ | /
[MDS] ← 메타데이터
| | |
[OSS] [OSS] [OSS] ← 데이터 저장
\ | /
[MDS] ← 메타데이터
- 파일 하나를 여러 OSS에 분산 저장
- 클라이언트는 동시에 여러 OSS에서 읽음
👉 파일 하나 = 병렬 스트라이핑
③ GPU 친화적 설계
DDN은 “GPU가 주인공”인 설계를 한다.
- GPUDirect Storage (GDS) 지원
- CPU 우회 → GPU ↔ 스토리지 직접 전송
- InfiniBand / RoCE 네이티브
👉 학습 파이프라인:
DDN → NIC → GPU (거의 CPU 안 거침)
④ 메타데이터 성능이 미쳤다
AI에서 은근 병목:
- 작은 파일 수백만 개
- checkpoint, shard, parquet, tfrecord…
DDN은:
- MDS 전용 HW
- 메타데이터 캐시 특화
- 병렬 create/open 성능이 높음
👉 “ls -l 이 빨라야 진짜 고성능”
⑤ 엔터프라이즈급 안정성
고성능인데도:
- HA 구성
- 핫스왑
- 무중단 확장
- 데이터 보호
👉 “실험실 장난감”이 아니라 운영용
4️⃣ DDN 주요 제품 라인업
🔹 EXAScaler (Lustre)
👉 가장 유명한 DDN
- Lustre 기반 병렬 파일 시스템
- AI 학습, HPC 표준
- 수백 노드~수천 노드 확장
주 용도:
- LLM 학습
- 시뮬레이션
- 대규모 데이터 레이크
🔹 Infinia
- AI 데이터 파이프라인 특화
- Object + File 통합
- 메타데이터 성능 강화
🔹 AI400X2 (올인원)
- 비교적 작은 규모 AI 클러스터
- GPU 수십~수백 장
5️⃣ DDN vs NAS vs Ceph
항목NASCephDDN
| 성능 | 낮음 | 중간 | 최상 |
| 지연 | ms | ms~sub-ms | μs~low ms |
| GPU 학습 | ❌ | ⚠️ | ✅ |
| 운영 난이도 | 쉬움 | 어려움 | 전문가 필요 |
| 비용 | 저렴 | 중간 | 비쌈 💸 |
👉 GPU 수십 장 이상이면 DDN 고려
👉 GPU 수백 장 이상이면 사실상 DDN급 아니면 힘듦
6️⃣ NCP / 쿠버네티스 관점에서 DDN
너가 자주 묻는 환경 기준으로 설명하면 👇
보통 구조
[GPU Worker Node] | (IB / RoCE) | [DDN Lustre Storage]
- 쿠버네티스 Pod는:
- 직접 Lustre mount
- 또는 HostPath로 노출
- PVC 개념보다는 외부 고성능 FS로 사용
👉 학습 데이터:
/mnt/ddn/datasets /mnt/ddn/checkpoints
7️⃣ 언제 DDN이 “필수”냐?
다음 중 3개 이상이면 거의 필수야.
- GPU 32장 이상
- 멀티 노드 분산 학습
- 데이터셋 TB~PB급
- epoch 시작할 때 I/O 폭주
- checkpoint 저장 느림
- GPU utilization < 70%
👉 이때 DDN 쓰면 GPU 사용률이 갑자기 90%로 튐
8️⃣ 한 줄로 정리하면
DDN은 “GPU를 굶기지 않기 위한 스토리지”다
CPU, 네트워크, 스토리지는
GPU를 서빙하는 하인들이고
DDN은 그중 최상급 집사 🧠⚡
반응형
'[GPUaaS] > GPUmgt' 카테고리의 다른 글
| [ECC ON / OFF] MIG · NCCL · 성능 영향 정리 (0) | 2026.02.06 |
|---|---|
| [쿠버네티스 명령어 모음] (0) | 2026.02.06 |
| [GPU의 ECC(Error-Correcting Code)] nvidia-smi -e 1 (0) | 2026.02.06 |
| [NCCL] NVIDIA Collective Communications Library (0) | 2026.02.03 |
| [중요2][NCP 실전] NKS 쿠버네티스 설치 - 제9회 K PaaS 활용 공모전 온라인 교육 NAVER Cloud (0) | 2026.01.24 |
| [GPU 클러스터] InfiniBand Cluster !! (0) | 2026.01.23 |
| [NVIDIA] 서버 / 데이터센터용 GPU 6종 !! (0) | 2026.01.23 |
| How to Set Up GPU Pods in Kubernetes for AI and Machine Learning Workloads (0) | 2026.01.23 |
댓글