본문 바로가기
[GPUaaS]/GPUmgt

[DDN(DataDirect Networks)] AI·HPC용 고성능 스토리지의 교과서

by METAVERSE STORY 2026. 2. 3.
반응형

 

 

 

1️⃣ 고성능 스토리지란

일반 스토리지(NAS, SAN)는 보통 이런 용도야.

  • 파일 서버
  • DB
  • VM 디스크
  • 업무 문서

👉 목표: 안정성, 편의성, 범용성


🔥 고성능 스토리지(HPC / AI Storage)의 목표는 다르다

항목일반 스토리지고성능 스토리지
핵심 목표 안정성 처리량·지연시간
지표 IOPS Throughput (GB/s)
파일 크기 작음 매우 큼 (GB~TB)
접근 방식 랜덤 대규모 순차 + 병렬
클라이언트 수십 수백~수천 노드

👉 AI 학습에서는
GPU가 데이터를 기다리면 = 돈이 타버린다 💸
그래서 스토리지가 GPU 속도를 따라가야 해.


2️⃣ DDN이 뭐냐? (한 줄 요약)

DDN은 AI·HPC 워크로드를 위해 태어난 ‘초병렬 파일 스토리지’ 회사

  • 설립: 1998년
  • 고객:
    • NVIDIA
    • OpenAI 계열
    • Top500 슈퍼컴퓨터 다수
  • 특징:
    “GPU/CPU가 동시에 미친 듯이 읽어도 안 죽는 스토리지”

3️⃣ DDN이 강한 이유 (핵심 5가지)

① 압도적인 Throughput

  • 단일 시스템:
    • 수백 GB/s ~ 수 TB/s
  • GPU 수백~수천 장이 동시에 접근 가능

👉 NAS처럼 “목 막힘”이 없음


② 병렬 파일 시스템 최적화

DDN은 보통 Lustre 기반으로 동작해.

Lustre 구조 간단 그림

 
[Client Nodes]
  |            |          |
[OSS] [OSS] [OSS]   ← 데이터 저장
      \        |         /
      [MDS]        ← 메타데이터
 
 
 
  • 파일 하나를 여러 OSS에 분산 저장
  • 클라이언트는 동시에 여러 OSS에서 읽음

👉 파일 하나 = 병렬 스트라이핑


③ GPU 친화적 설계

DDN은 “GPU가 주인공”인 설계를 한다.

  • GPUDirect Storage (GDS) 지원
  • CPU 우회 → GPU ↔ 스토리지 직접 전송
  • InfiniBand / RoCE 네이티브

👉 학습 파이프라인:

 
DDN → NIC → GPU (거의 CPU 안 거침)

④ 메타데이터 성능이 미쳤다

AI에서 은근 병목:

  • 작은 파일 수백만 개
  • checkpoint, shard, parquet, tfrecord…

DDN은:

  • MDS 전용 HW
  • 메타데이터 캐시 특화
  • 병렬 create/open 성능이 높음

👉 “ls -l 이 빨라야 진짜 고성능”


⑤ 엔터프라이즈급 안정성

고성능인데도:

  • HA 구성
  • 핫스왑
  • 무중단 확장
  • 데이터 보호

👉 “실험실 장난감”이 아니라 운영용


4️⃣ DDN 주요 제품 라인업

🔹 EXAScaler (Lustre)

👉 가장 유명한 DDN

  • Lustre 기반 병렬 파일 시스템
  • AI 학습, HPC 표준
  • 수백 노드~수천 노드 확장

주 용도:

  • LLM 학습
  • 시뮬레이션
  • 대규모 데이터 레이크

🔹 Infinia

  • AI 데이터 파이프라인 특화
  • Object + File 통합
  • 메타데이터 성능 강화

🔹 AI400X2 (올인원)

  • 비교적 작은 규모 AI 클러스터
  • GPU 수십~수백 장

5️⃣ DDN vs NAS vs Ceph

항목NASCephDDN
성능 낮음 중간 최상
지연 ms ms~sub-ms μs~low ms
GPU 학습 ⚠️
운영 난이도 쉬움 어려움 전문가 필요
비용 저렴 중간 비쌈 💸

👉 GPU 수십 장 이상이면 DDN 고려
👉 GPU 수백 장 이상이면 사실상 DDN급 아니면 힘듦


6️⃣ NCP / 쿠버네티스 관점에서 DDN

너가 자주 묻는 환경 기준으로 설명하면 👇

보통 구조

 
[GPU Worker Node] | (IB / RoCE) | [DDN Lustre Storage]
  • 쿠버네티스 Pod는:
    • 직접 Lustre mount
    • 또는 HostPath로 노출
  • PVC 개념보다는 외부 고성능 FS로 사용

👉 학습 데이터:

 
/mnt/ddn/datasets /mnt/ddn/checkpoints

7️⃣ 언제 DDN이 “필수”냐?

다음 중 3개 이상이면 거의 필수야.

  • GPU 32장 이상
  • 멀티 노드 분산 학습
  • 데이터셋 TB~PB급
  • epoch 시작할 때 I/O 폭주
  • checkpoint 저장 느림
  • GPU utilization < 70%

👉 이때 DDN 쓰면 GPU 사용률이 갑자기 90%로 튐


8️⃣ 한 줄로 정리하면

DDN은 “GPU를 굶기지 않기 위한 스토리지”다

CPU, 네트워크, 스토리지는
GPU를 서빙하는 하인들이고
DDN은 그중 최상급 집사 🧠⚡

 

 

반응형

댓글