1️⃣ 고성능 스토리지란

일반 스토리지(NAS, SAN)는 보통 이런 용도야.

파일 서버
DB
VM 디스크
업무 문서

👉 목표: 안정성, 편의성, 범용성

🔥 고성능 스토리지(HPC / AI Storage)의 목표는 다르다

항목일반 스토리지고성능 스토리지

핵심 목표	안정성	처리량·지연시간
지표	IOPS	Throughput (GB/s)
파일 크기	작음	매우 큼 (GB~TB)
접근 방식	랜덤	대규모 순차 + 병렬
클라이언트	수십	수백~수천 노드

👉 AI 학습에서는
GPU가 데이터를 기다리면 = 돈이 타버린다 💸
그래서 스토리지가 GPU 속도를 따라가야 해.

2️⃣ DDN이 뭐냐? (한 줄 요약)

DDN은 AI·HPC 워크로드를 위해 태어난 ‘초병렬 파일 스토리지’ 회사

설립: 1998년
고객:
- NVIDIA
- OpenAI 계열
- Top500 슈퍼컴퓨터 다수
특징:
“GPU/CPU가 동시에 미친 듯이 읽어도 안 죽는 스토리지”

3️⃣ DDN이 강한 이유 (핵심 5가지)

① 압도적인 Throughput

단일 시스템:
- 수백 GB/s ~ 수 TB/s
GPU 수백~수천 장이 동시에 접근 가능

👉 NAS처럼 “목 막힘”이 없음

② 병렬 파일 시스템 최적화

DDN은 보통 Lustre 기반으로 동작해.

Lustre 구조 간단 그림

[Client Nodes]
  | | |
[OSS] [OSS] [OSS]   ← 데이터 저장
\ | /
      [MDS]        ← 메타데이터

파일 하나를 여러 OSS에 분산 저장
클라이언트는 동시에 여러 OSS에서 읽음

👉 파일 하나 = 병렬 스트라이핑

③ GPU 친화적 설계

DDN은 “GPU가 주인공”인 설계를 한다.

GPUDirect Storage (GDS) 지원
CPU 우회 → GPU ↔ 스토리지 직접 전송
InfiniBand / RoCE 네이티브

👉 학습 파이프라인:

DDN → NIC → GPU (거의 CPU 안 거침)

④ 메타데이터 성능이 미쳤다

AI에서 은근 병목:

작은 파일 수백만 개
checkpoint, shard, parquet, tfrecord…

DDN은:

MDS 전용 HW
메타데이터 캐시 특화
병렬 create/open 성능이 높음

👉 “ls -l 이 빨라야 진짜 고성능”

⑤ 엔터프라이즈급 안정성

고성능인데도:

HA 구성
핫스왑
무중단 확장
데이터 보호

👉 “실험실 장난감”이 아니라 운영용

4️⃣ DDN 주요 제품 라인업

🔹 EXAScaler (Lustre)

👉 가장 유명한 DDN

Lustre 기반 병렬 파일 시스템
AI 학습, HPC 표준
수백 노드~수천 노드 확장

주 용도:

LLM 학습
시뮬레이션
대규모 데이터 레이크

🔹 Infinia

AI 데이터 파이프라인 특화
Object + File 통합
메타데이터 성능 강화

🔹 AI400X2 (올인원)

비교적 작은 규모 AI 클러스터
GPU 수십~수백 장

5️⃣ DDN vs NAS vs Ceph

항목NASCephDDN

성능	낮음	중간	최상
지연	ms	ms~sub-ms	μs~low ms
GPU 학습	❌	⚠️	✅
운영 난이도	쉬움	어려움	전문가 필요
비용	저렴	중간	비쌈 💸

👉 GPU 수십 장 이상이면 DDN 고려
👉 GPU 수백 장 이상이면 사실상 DDN급 아니면 힘듦

6️⃣ NCP / 쿠버네티스 관점에서 DDN

너가 자주 묻는 환경 기준으로 설명하면 👇

보통 구조

[GPU Worker Node] | (IB / RoCE) | [DDN Lustre Storage]

쿠버네티스 Pod는:
- 직접 Lustre mount
- 또는 HostPath로 노출
PVC 개념보다는 외부 고성능 FS로 사용

👉 학습 데이터:

/mnt/ddn/datasets /mnt/ddn/checkpoints

7️⃣ 언제 DDN이 “필수”냐?

다음 중 3개 이상이면 거의 필수야.

GPU 32장 이상
멀티 노드 분산 학습
데이터셋 TB~PB급
epoch 시작할 때 I/O 폭주
checkpoint 저장 느림
GPU utilization < 70%

👉 이때 DDN 쓰면 GPU 사용률이 갑자기 90%로 튐

8️⃣ 한 줄로 정리하면

DDN은 “GPU를 굶기지 않기 위한 스토리지”다

CPU, 네트워크, 스토리지는
GPU를 서빙하는 하인들이고
DDN은 그중 최상급 집사 🧠⚡

저작자표시 비영리 변경금지 (새창열림)

'[GPUaaS] > GPUmgt' 카테고리의 다른 글

[ECC ON / OFF] MIG · NCCL · 성능 영향 정리 (0)	2026.02.06
[쿠버네티스 명령어 모음] (0)	2026.02.06
[GPU의 ECC(Error-Correcting Code)] nvidia-smi -e 1 (0)	2026.02.06
[NCCL] NVIDIA Collective Communications Library (0)	2026.02.03
[중요2][NCP 실전] NKS 쿠버네티스 설치 - 제9회 K PaaS 활용 공모전 온라인 교육 NAVER Cloud (0)	2026.01.24
[GPU 클러스터] InfiniBand Cluster !! (0)	2026.01.23
[NVIDIA] 서버 / 데이터센터용 GPU 6종 !! (0)	2026.01.23
How to Set Up GPU Pods in Kubernetes for AI and Machine Learning Workloads (0)	2026.01.23

[DDN(DataDirect Networks)] AI·HPC용 고성능 스토리지의 교과서

1️⃣ 고성능 스토리지란

🔥 고성능 스토리지(HPC / AI Storage)의 목표는 다르다

2️⃣ DDN이 뭐냐? (한 줄 요약)

3️⃣ DDN이 강한 이유 (핵심 5가지)

① 압도적인 Throughput

② 병렬 파일 시스템 최적화

Lustre 구조 간단 그림

③ GPU 친화적 설계

④ 메타데이터 성능이 미쳤다

⑤ 엔터프라이즈급 안정성

4️⃣ DDN 주요 제품 라인업

🔹 EXAScaler (Lustre)

🔹 Infinia

🔹 AI400X2 (올인원)

5️⃣ DDN vs NAS vs Ceph

6️⃣ NCP / 쿠버네티스 관점에서 DDN

보통 구조

7️⃣ 언제 DDN이 “필수”냐?

8️⃣ 한 줄로 정리하면

'[GPUaaS] > GPUmgt' 카테고리의 다른 글

댓글

티스토리툴바

[DDN(DataDirect Networks)] AI·HPC용 고성능 스토리지의 교과서

1️⃣ 고성능 스토리지란

🔥 고성능 스토리지(HPC / AI Storage)의 목표는 다르다

2️⃣ DDN이 뭐냐? (한 줄 요약)

3️⃣ DDN이 강한 이유 (핵심 5가지)

① 압도적인 Throughput

② 병렬 파일 시스템 최적화

Lustre 구조 간단 그림

③ GPU 친화적 설계

④ 메타데이터 성능이 미쳤다

⑤ 엔터프라이즈급 안정성

4️⃣ DDN 주요 제품 라인업

🔹 EXAScaler (Lustre)

🔹 Infinia

🔹 AI400X2 (올인원)

5️⃣ DDN vs NAS vs Ceph

6️⃣ NCP / 쿠버네티스 관점에서 DDN

보통 구조

7️⃣ 언제 DDN이 “필수”냐?

8️⃣ 한 줄로 정리하면

'[GPUaaS] > GPUmgt' 카테고리의 다른 글

관련글

댓글

티스토리툴바