HPC + InfiniBand + 여러 IP NAS 구조라서, 거의 99% Lustre 계열 병렬 파일시스템입니다.

1️⃣ Lustre가 뭐냐?

Lustre 는

👉 초대형 AI / 슈퍼컴퓨터 전용 파일시스템입니다.
👉 수십~수천 대 서버가 같은 저장소를 동시에 빠르게 쓰기 위해 만든 기술입니다.

일반 NAS(NFS)랑은 급이 다릅니다.

2️⃣ 왜 필요하냐?

예를 들어:

GPU 노드 64대
각 노드가 동시에 학습 데이터 읽음
초당 수십~수백 GB 필요

일반 NAS면:

🚨 병목 발생 → 학습 멈춤 → NCCL timeout → 워치독

그래서 만든 게 Lustre입니다.

3️⃣ Lustre 구조 (초보자 핵심)

Lustre는 3가지 서버로 구성됩니다.

① MDS (Metadata Server)

👉 파일 이름 관리 담당
👉 "파일 어디있어?" 알려주는 역할

비유: 📇 도서관 목록표

② MDT (Metadata Target)

👉 실제 메타데이터 저장 공간

③ OSS (Object Storage Server)

👉 실제 데이터 저장 담당
👉 대용량 파일을 여러 서버에 분산 저장

비유: 📦 창고

4️⃣ 왜 IP가 여러 개였냐?

아까 이거 기억나죠?

이건

👉 여러 OSS 서버가 동시에 데이터 제공 중이라는 뜻
👉 부하 분산 + 장애 대비

5️⃣ @o2ib 는 뭐였지?

o2ib = InfiniBand 네트워크

Lustre는 보통:

Ethernet ❌
InfiniBand ✅

AI/HPC 환경에 최적화됨.

6️⃣ 일반 NFS랑 차이점

구분	NFS	Lustre
구조	단일 서버	다중 서버
속도	제한적	수백 GB/s
AI 64노드	병목	안정
네트워크	Ethernet	InfiniBand

7️⃣ 왜 AI 학습에서 중요하냐?

당신이 겪었던:

NCCL timeout
워치독 멈춤
64노드에서 스턱

이게 스토리지 병목이면:

👉 Lustre 상태 확인이 매우 중요합니다.

8️⃣ 지금 서버에서 Lustre 확인 방법

① 파일시스템 타입 확인

mount | grep lustre

② Lustre 상태 확인

lfs df

③ OST 확인

lfs osts

9️⃣ 내부 동작 방식 (아주 쉽게)

대용량 파일을 저장하면:

파일 1개

↓

여러 조각으로 분할

↓

OSS 여러 대에 분산 저장

그래서 동시에 여러 서버에서 읽을 수 있음.

🔟 왜 AI에서 거의 표준이냐?

슈퍼컴퓨터 Top500 대부분이 Lustre 사용.

예:

Oak Ridge National Laboratory
CERN

같은 곳에서 사용.

🎯 한 줄 정리

Lustre = 수십~수천 대 서버가 동시에 쓰기 위해 만든 초고속 분산 파일시스템

🔥 지금 환경 정리

당신 서버 구조는:

GPU 다수
InfiniBand
다중 IP NAS
대용량 TB~PB

👉 99% Lustre 계열 HPC 스토리지

저작자표시 비영리 변경금지 (새창열림)

'[GPUaaS] > GPUmgt' 카테고리의 다른 글

nvidia-smi (System Management Interface) VS nvidia-healthmon (Tesla Health Monitor) !! (0)	2026.02.19
Ceph vs Lustre 차이 !! (0)	2026.02.18
[Ceph] 대용량 분산 스토리지 시스템 !! (1)	2026.02.18
[ECC ON] 체크 스크립트 !! (0)	2026.02.18
[NVMe 번호는 고정 아님] 부팅 시 인식 순서가 달라짐 !! (0)	2026.02.12
[MBR(msdos) 파티션] MBR 방식 = 2TB 한계 / GPT 방식 (2TB 제한 제거 🔥) (0)	2026.02.12
[GPU/SCP/파일질라] nvidia-bug-report.sh 위치 (0)	2026.02.09
[NCP] SSL VPN 다운로드 (0)	2026.02.09

[Lustre 병렬 파일시스템] 초대형 AI / 슈퍼컴퓨터 전용 파일시스템 !!

1️⃣ Lustre가 뭐냐?

2️⃣ 왜 필요하냐?

3️⃣ Lustre 구조 (초보자 핵심)

① MDS (Metadata Server)

② MDT (Metadata Target)

③ OSS (Object Storage Server)

4️⃣ 왜 IP가 여러 개였냐?

5️⃣ @o2ib 는 뭐였지?

6️⃣ 일반 NFS랑 차이점

7️⃣ 왜 AI 학습에서 중요하냐?

8️⃣ 지금 서버에서 Lustre 확인 방법

① 파일시스템 타입 확인

② Lustre 상태 확인

③ OST 확인

9️⃣ 내부 동작 방식 (아주 쉽게)

🔟 왜 AI에서 거의 표준이냐?

🎯 한 줄 정리

🔥 지금 환경 정리

'[GPUaaS] > GPUmgt' 카테고리의 다른 글

댓글

티스토리툴바

[Lustre 병렬 파일시스템] 초대형 AI / 슈퍼컴퓨터 전용 파일시스템 !!

1️⃣ Lustre가 뭐냐?

2️⃣ 왜 필요하냐?

3️⃣ Lustre 구조 (초보자 핵심)

① MDS (Metadata Server)

② MDT (Metadata Target)

③ OSS (Object Storage Server)

4️⃣ 왜 IP가 여러 개였냐?

5️⃣ @o2ib 는 뭐였지?

6️⃣ 일반 NFS랑 차이점

7️⃣ 왜 AI 학습에서 중요하냐?

8️⃣ 지금 서버에서 Lustre 확인 방법

① 파일시스템 타입 확인

② Lustre 상태 확인

③ OST 확인

9️⃣ 내부 동작 방식 (아주 쉽게)

🔟 왜 AI에서 거의 표준이냐?

🎯 한 줄 정리

🔥 지금 환경 정리

'[GPUaaS] > GPUmgt' 카테고리의 다른 글

관련글

댓글

티스토리툴바