[GPU 클러스터] InfiniBand Cluster !!

좋은 질문이에요. 이거 GPU 클러스터 / 대규모 AI 쪽에서 진짜 핵심 개념입니다.
차근차근, “왜 필요한지 → 뭐가 다른지 → 언제 쓰는지” 순서로 설명할게요.

1️⃣ InfiniBand가 뭐야? (한 줄 요약)

InfiniBand(IB) 는
👉 GPU 서버들끼리 초고속·초저지연으로 통신하기 위한 데이터센터 전용 네트워크 기술예요.

일반적인 네트워크가 Ethernet(이더넷) 이라면,
InfiniBand는 AI/HPC 전용 초고성능 네트워크라고 보면 됩니다.

2️⃣ 왜 InfiniBand가 필요한가?

❌ 일반 Ethernet의 한계

AI/GPU 클러스터에서 이런 문제가 생깁니다:

GPU가 아무리 빨라도
👉 서버 간 통신이 느리면 전체 학습 속도가 느려짐
대규모 모델 학습 시
- Gradient 동기화
- 파라미터 교환
- All-Reduce 연산
  → 네트워크가 병목

📉 결과

“GPU는 놀고 있는데, 네트워크 때문에 기다리는 상황”

✅ InfiniBand가 해결하는 것

항목	Ethernet	InfiniBand
지연시간	수십~수백 μs	1~2 μs 수준
대역폭	10~100Gbps	200 / 400 / 800 Gbps
CPU 개입	많음	거의 없음 (RDMA)
GPU 통신	간접	GPU ↔ GPU 직접

3️⃣ 핵심 개념 ① RDMA (이게 제일 중요)

RDMA = Remote Direct Memory Access

CPU 거치지 않고
서버 A 메모리 ↔ 서버 B 메모리 직접 전송

일반 통신

GPU → CPU → OS → Network → OS → CPU → GPU

InfiniBand (RDMA)

GPU ──────────────► GPU

👉 CPU 부하 감소 + 지연 최소화 + 대역폭 극대화

그래서 LLM 학습에서 필수입니다.

4️⃣ InfiniBand 클러스터란?

InfiniBand 네트워크로 연결된 GPU 서버들의 집합

즉,

[GPU Server 1] ─┐
[GPU Server 2] ─┼─ InfiniBand Switch ─ [GPU Server N]
[GPU Server 3] ─┘

구성 요소

구성	설명
IB NIC (HCA)	서버에 장착된 InfiniBand 네트워크 카드
IB Switch	초고속 전용 스위치
IB Cable	DAC / AOC / 광케이블
GPU	A100 / H100 / H200 등
Software	NCCL, MPI, CUDA-aware

5️⃣ GPU + InfiniBand가 만나면 뭐가 달라져?

🔥 NVIDIA NCCL + InfiniBand

GPU 간 AllReduce, Broadcast, Gather 최적화
수백~수천 GPU를 하나의 거대한 GPU처럼 사용

예시: LLM 학습

8 GPU 서버 × 16대 = 128 GPU
파라미터/Gradient 실시간 동기화
네트워크 병목 없이 선형 스케일링에 가까움

6️⃣ 언제 InfiniBand 클러스터를 쓰는가?

✅ 반드시 필요한 경우

대형 LLM 학습 (30B, 70B, 100B+)
Multi-node Distributed Training
GPU 수십~수백 장 운영
AI 연구소 / 빅테크 / 국가 슈퍼컴

❌ 굳이 필요 없는 경우

단일 서버 (8 GPU 이하)
Inference 위주
소규모 파인튜닝
→ 이 경우 Ethernet + NVLink 로 충분

7️⃣ Ethernet vs InfiniBand 한 방에 정리

구분	Ethernet 클러스터	InfiniBand 클러스터
구축 비용	낮음	매우 높음
복잡도	쉬움	어려움
성능	보통	최상
AI 학습 규모	소~중	대규모 이상
대표 사용	일반 K8s	AI 슈퍼클러스터

8️⃣ 실제 많이 쓰는 조합

GPU	네트워크
A100	IB HDR / NDR
H100	IB NDR 400Gbps
H200	IB NDR / XDR
L40s	Ethernet (보통)

👉 그래서 H100-80GB-IB-DDN 같은 이름이 붙는 거예요
= InfiniBand 최적화된 데이터센터 구성

9️⃣ 한 줄로 정리

InfiniBand 클러스터 =
GPU 여러 대를 “하나의 초대형 GPU”처럼 쓰기 위한
초고속·초저지연 AI 전용 네트워크 환경

저작자표시 비영리 변경금지 (새창열림)

'[GPUaaS] > GPUmgt' 카테고리의 다른 글

[쿠버네티스 명령어 모음] (0)	2026.01.30
[중요2][NCP 실전] NKS 쿠버네티스 설치 - 제9회 K PaaS 활용 공모전 온라인 교육 NAVER Cloud (0)	2026.01.24
[NVIDIA] 서버 / 데이터센터용 GPU 6종 !! (0)	2026.01.23
How to Set Up GPU Pods in Kubernetes for AI and Machine Learning Workloads (0)	2026.01.23
[중요2][NCP 쿠버네티스 설치] 컨테이너 오케스트레이션 툴, 쿠버네티스 이해하기 (기초) (0)	2026.01.22
[NCP 실전] DCGM Exporter DaemonSet YAML 상세 해설 (1)	2026.01.15
[NCP 실전] GPU 노드 오토스케일링시 NVIDIA Device Plugin / DCGM Exporter 자동 설치 (DaemonSet) (1)	2026.01.14
[중요2][NCP 실전] Kubernetes→ NVIDIA Device Plugin→ DCGM Exporter→ Prometheus→ Grafana 설치 가이드 (0)	2026.01.14

[GPU 클러스터] InfiniBand Cluster !!

1️⃣ InfiniBand가 뭐야? (한 줄 요약)

2️⃣ 왜 InfiniBand가 필요한가?

❌ 일반 Ethernet의 한계

✅ InfiniBand가 해결하는 것

3️⃣ 핵심 개념 ① RDMA (이게 제일 중요)

RDMA = Remote Direct Memory Access

일반 통신

InfiniBand (RDMA)

4️⃣ InfiniBand 클러스터란?

구성 요소

5️⃣ GPU + InfiniBand가 만나면 뭐가 달라져?

🔥 NVIDIA NCCL + InfiniBand

예시: LLM 학습

6️⃣ 언제 InfiniBand 클러스터를 쓰는가?

✅ 반드시 필요한 경우

❌ 굳이 필요 없는 경우

7️⃣ Ethernet vs InfiniBand 한 방에 정리

8️⃣ 실제 많이 쓰는 조합

9️⃣ 한 줄로 정리

'[GPUaaS] > GPUmgt' 카테고리의 다른 글

댓글

티스토리툴바

[GPU 클러스터] InfiniBand Cluster !!

1️⃣ InfiniBand가 뭐야? (한 줄 요약)

2️⃣ 왜 InfiniBand가 필요한가?

❌ 일반 Ethernet의 한계

✅ InfiniBand가 해결하는 것

3️⃣ 핵심 개념 ① RDMA (이게 제일 중요)

RDMA = Remote Direct Memory Access

일반 통신

InfiniBand (RDMA)

4️⃣ InfiniBand 클러스터란?

구성 요소

5️⃣ GPU + InfiniBand가 만나면 뭐가 달라져?

🔥 NVIDIA NCCL + InfiniBand

예시: LLM 학습

6️⃣ 언제 InfiniBand 클러스터를 쓰는가?

✅ 반드시 필요한 경우

❌ 굳이 필요 없는 경우

7️⃣ Ethernet vs InfiniBand 한 방에 정리

8️⃣ 실제 많이 쓰는 조합

9️⃣ 한 줄로 정리

'[GPUaaS] > GPUmgt' 카테고리의 다른 글

관련글

댓글

티스토리툴바