본문 바로가기
[GPUaaS]/GPUmgt

[Lustre 병렬 파일시스템] 초대형 AI / 슈퍼컴퓨터 전용 파일시스템 !!

by METAVERSE STORY 2026. 2. 18.
반응형

 

 

HPC + InfiniBand + 여러 IP NAS 구조라서, 거의 99% Lustre 계열 병렬 파일시스템입니다.


1️⃣ Lustre가 뭐냐?

Lustre

👉 초대형 AI / 슈퍼컴퓨터 전용 파일시스템입니다.
👉 수십~수천 대 서버가 같은 저장소를 동시에 빠르게 쓰기 위해 만든 기술입니다.

일반 NAS(NFS)랑은 급이 다릅니다.


2️⃣ 왜 필요하냐?

예를 들어:

  • GPU 노드 64대
  • 각 노드가 동시에 학습 데이터 읽음
  • 초당 수십~수백 GB 필요

일반 NAS면:

 
 
🚨 병목 발생 → 학습 멈춤 → NCCL timeout → 워치독
 

그래서 만든 게 Lustre입니다.


3️⃣ Lustre 구조 (초보자 핵심)

Lustre는 3가지 서버로 구성됩니다.


① MDS (Metadata Server)

👉 파일 이름 관리 담당
👉 "파일 어디있어?" 알려주는 역할

비유: 📇 도서관 목록표


② MDT (Metadata Target)

👉 실제 메타데이터 저장 공간


③ OSS (Object Storage Server)

👉 실제 데이터 저장 담당
👉 대용량 파일을 여러 서버에 분산 저장

비유: 📦 창고


4️⃣ 왜 IP가 여러 개였냐?

아까 이거 기억나죠?

 
 
이건

👉 여러 OSS 서버가 동시에 데이터 제공 중이라는 뜻
👉 부하 분산 + 장애 대비


5️⃣ @o2ib 는 뭐였지?

o2ib = InfiniBand 네트워크

Lustre는 보통:

  • Ethernet ❌
  • InfiniBand ✅

AI/HPC 환경에 최적화됨.


6️⃣ 일반 NFS랑 차이점

구분 NFS Lustre
구조 단일 서버 다중 서버
속도 제한적 수백 GB/s
AI 64노드 병목 안정
네트워크 Ethernet InfiniBand

7️⃣ 왜 AI 학습에서 중요하냐?

당신이 겪었던:

  • NCCL timeout
  • 워치독 멈춤
  • 64노드에서 스턱

이게 스토리지 병목이면:

👉 Lustre 상태 확인이 매우 중요합니다.


8️⃣ 지금 서버에서 Lustre 확인 방법

① 파일시스템 타입 확인

 
 
mount | grep lustre
 
 

② Lustre 상태 확인

 
 
lfs df
 

③ OST 확인

 
 
lfs osts
 

9️⃣ 내부 동작 방식 (아주 쉽게)

대용량 파일을 저장하면:

 
 
파일 1개
여러 조각으로 분할
OSS 여러 대에 분산 저장
 

그래서 동시에 여러 서버에서 읽을 수 있음.


🔟 왜 AI에서 거의 표준이냐?

슈퍼컴퓨터 Top500 대부분이 Lustre 사용.

예:

  • Oak Ridge National Laboratory
  • CERN

같은 곳에서 사용.


🎯 한 줄 정리

 
 
Lustre = 수십~수천 대 서버가 동시에 쓰기 위해 만든 초고속 분산 파일시스템
 

🔥 지금 환경 정리

당신 서버 구조는:

  • GPU 다수
  • InfiniBand
  • 다중 IP NAS
  • 대용량 TB~PB

👉 99% Lustre 계열 HPC 스토리지

 

 

 

반응형

댓글