반응형
HPC + InfiniBand + 여러 IP NAS 구조라서, 거의 99% Lustre 계열 병렬 파일시스템입니다.
1️⃣ Lustre가 뭐냐?
Lustre 는
👉 초대형 AI / 슈퍼컴퓨터 전용 파일시스템입니다.
👉 수십~수천 대 서버가 같은 저장소를 동시에 빠르게 쓰기 위해 만든 기술입니다.
일반 NAS(NFS)랑은 급이 다릅니다.
2️⃣ 왜 필요하냐?
예를 들어:
- GPU 노드 64대
- 각 노드가 동시에 학습 데이터 읽음
- 초당 수십~수백 GB 필요
일반 NAS면:
🚨 병목 발생 → 학습 멈춤 → NCCL timeout → 워치독
그래서 만든 게 Lustre입니다.
3️⃣ Lustre 구조 (초보자 핵심)
Lustre는 3가지 서버로 구성됩니다.
① MDS (Metadata Server)
👉 파일 이름 관리 담당
👉 "파일 어디있어?" 알려주는 역할
비유: 📇 도서관 목록표
② MDT (Metadata Target)
👉 실제 메타데이터 저장 공간
③ OSS (Object Storage Server)
👉 실제 데이터 저장 담당
👉 대용량 파일을 여러 서버에 분산 저장
비유: 📦 창고
4️⃣ 왜 IP가 여러 개였냐?
아까 이거 기억나죠?
이건
👉 여러 OSS 서버가 동시에 데이터 제공 중이라는 뜻
👉 부하 분산 + 장애 대비
5️⃣ @o2ib 는 뭐였지?
o2ib = InfiniBand 네트워크
Lustre는 보통:
- Ethernet ❌
- InfiniBand ✅
AI/HPC 환경에 최적화됨.
6️⃣ 일반 NFS랑 차이점
| 구분 | NFS | Lustre |
| 구조 | 단일 서버 | 다중 서버 |
| 속도 | 제한적 | 수백 GB/s |
| AI 64노드 | 병목 | 안정 |
| 네트워크 | Ethernet | InfiniBand |
7️⃣ 왜 AI 학습에서 중요하냐?
당신이 겪었던:
- NCCL timeout
- 워치독 멈춤
- 64노드에서 스턱
이게 스토리지 병목이면:
👉 Lustre 상태 확인이 매우 중요합니다.
8️⃣ 지금 서버에서 Lustre 확인 방법
① 파일시스템 타입 확인
mount | grep lustre
② Lustre 상태 확인
lfs df
③ OST 확인
lfs osts
9️⃣ 내부 동작 방식 (아주 쉽게)
대용량 파일을 저장하면:
파일 1개
↓
여러 조각으로 분할
↓
OSS 여러 대에 분산 저장
그래서 동시에 여러 서버에서 읽을 수 있음.
🔟 왜 AI에서 거의 표준이냐?
슈퍼컴퓨터 Top500 대부분이 Lustre 사용.
예:
- Oak Ridge National Laboratory
- CERN
같은 곳에서 사용.
🎯 한 줄 정리
Lustre = 수십~수천 대 서버가 동시에 쓰기 위해 만든 초고속 분산 파일시스템
🔥 지금 환경 정리
당신 서버 구조는:
- GPU 다수
- InfiniBand
- 다중 IP NAS
- 대용량 TB~PB
👉 99% Lustre 계열 HPC 스토리지
반응형
'[GPUaaS] > GPUmgt' 카테고리의 다른 글
| nvidia-smi (System Management Interface) VS nvidia-healthmon (Tesla Health Monitor) !! (0) | 2026.02.19 |
|---|---|
| Ceph vs Lustre 차이 !! (0) | 2026.02.18 |
| [Ceph] 대용량 분산 스토리지 시스템 !! (1) | 2026.02.18 |
| [ECC ON] 체크 스크립트 !! (0) | 2026.02.18 |
| [NVMe 번호는 고정 아님] 부팅 시 인식 순서가 달라짐 !! (0) | 2026.02.12 |
| [MBR(msdos) 파티션] MBR 방식 = 2TB 한계 / GPT 방식 (2TB 제한 제거 🔥) (0) | 2026.02.12 |
| [GPU/SCP/파일질라] nvidia-bug-report.sh 위치 (0) | 2026.02.09 |
| [NCP] SSL VPN 다운로드 (0) | 2026.02.09 |
댓글