반응형
좋은 질문이에요. 이거 GPU 클러스터 / 대규모 AI 쪽에서 진짜 핵심 개념입니다.
차근차근, “왜 필요한지 → 뭐가 다른지 → 언제 쓰는지” 순서로 설명할게요.
1️⃣ InfiniBand가 뭐야? (한 줄 요약)
InfiniBand(IB) 는
👉 GPU 서버들끼리 초고속·초저지연으로 통신하기 위한 데이터센터 전용 네트워크 기술예요.
일반적인 네트워크가 Ethernet(이더넷) 이라면,
InfiniBand는 AI/HPC 전용 초고성능 네트워크라고 보면 됩니다.
2️⃣ 왜 InfiniBand가 필요한가?
❌ 일반 Ethernet의 한계
AI/GPU 클러스터에서 이런 문제가 생깁니다:
- GPU가 아무리 빨라도
👉 서버 간 통신이 느리면 전체 학습 속도가 느려짐 - 대규모 모델 학습 시
- Gradient 동기화
- 파라미터 교환
- All-Reduce 연산
→ 네트워크가 병목
📉 결과
“GPU는 놀고 있는데, 네트워크 때문에 기다리는 상황”
✅ InfiniBand가 해결하는 것
| 항목 | Ethernet | InfiniBand |
| 지연시간 | 수십~수백 μs | 1~2 μs 수준 |
| 대역폭 | 10~100Gbps | 200 / 400 / 800 Gbps |
| CPU 개입 | 많음 | 거의 없음 (RDMA) |
| GPU 통신 | 간접 | GPU ↔ GPU 직접 |
3️⃣ 핵심 개념 ① RDMA (이게 제일 중요)
RDMA = Remote Direct Memory Access
CPU 거치지 않고
서버 A 메모리 ↔ 서버 B 메모리 직접 전송
일반 통신
GPU → CPU → OS → Network → OS → CPU → GPU
InfiniBand (RDMA)
GPU ──────────────► GPU
👉 CPU 부하 감소 + 지연 최소화 + 대역폭 극대화
그래서 LLM 학습에서 필수입니다.
4️⃣ InfiniBand 클러스터란?
InfiniBand 네트워크로 연결된 GPU 서버들의 집합
즉,
[GPU Server 1] ─┐
[GPU Server 2] ─┼─ InfiniBand Switch ─ [GPU Server N]
[GPU Server 3] ─┘
[GPU Server 2] ─┼─ InfiniBand Switch ─ [GPU Server N]
[GPU Server 3] ─┘
구성 요소
| 구성 | 설명 |
| IB NIC (HCA) | 서버에 장착된 InfiniBand 네트워크 카드 |
| IB Switch | 초고속 전용 스위치 |
| IB Cable | DAC / AOC / 광케이블 |
| GPU | A100 / H100 / H200 등 |
| Software | NCCL, MPI, CUDA-aware |
5️⃣ GPU + InfiniBand가 만나면 뭐가 달라져?
🔥 NVIDIA NCCL + InfiniBand
- GPU 간 AllReduce, Broadcast, Gather 최적화
- 수백~수천 GPU를 하나의 거대한 GPU처럼 사용
예시: LLM 학습
- 8 GPU 서버 × 16대 = 128 GPU
- 파라미터/Gradient 실시간 동기화
- 네트워크 병목 없이 선형 스케일링에 가까움
6️⃣ 언제 InfiniBand 클러스터를 쓰는가?
✅ 반드시 필요한 경우
- 대형 LLM 학습 (30B, 70B, 100B+)
- Multi-node Distributed Training
- GPU 수십~수백 장 운영
- AI 연구소 / 빅테크 / 국가 슈퍼컴
❌ 굳이 필요 없는 경우
- 단일 서버 (8 GPU 이하)
- Inference 위주
- 소규모 파인튜닝
→ 이 경우 Ethernet + NVLink 로 충분
7️⃣ Ethernet vs InfiniBand 한 방에 정리
| 구분 | Ethernet 클러스터 | InfiniBand 클러스터 |
| 구축 비용 | 낮음 | 매우 높음 |
| 복잡도 | 쉬움 | 어려움 |
| 성능 | 보통 | 최상 |
| AI 학습 규모 | 소~중 | 대규모 이상 |
| 대표 사용 | 일반 K8s | AI 슈퍼클러스터 |
8️⃣ 실제 많이 쓰는 조합
| GPU | 네트워크 |
| A100 | IB HDR / NDR |
| H100 | IB NDR 400Gbps |
| H200 | IB NDR / XDR |
| L40s | Ethernet (보통) |
👉 그래서 H100-80GB-IB-DDN 같은 이름이 붙는 거예요
= InfiniBand 최적화된 데이터센터 구성
9️⃣ 한 줄로 정리
InfiniBand 클러스터 =
GPU 여러 대를 “하나의 초대형 GPU”처럼 쓰기 위한
초고속·초저지연 AI 전용 네트워크 환경
반응형
'[GPUaaS] > GPUmgt' 카테고리의 다른 글
| [쿠버네티스 명령어 모음] (0) | 2026.01.30 |
|---|---|
| [중요2][NCP 실전] NKS 쿠버네티스 설치 - 제9회 K PaaS 활용 공모전 온라인 교육 NAVER Cloud (0) | 2026.01.24 |
| [NVIDIA] 서버 / 데이터센터용 GPU 6종 !! (0) | 2026.01.23 |
| How to Set Up GPU Pods in Kubernetes for AI and Machine Learning Workloads (0) | 2026.01.23 |
| [중요2][NCP 쿠버네티스 설치] 컨테이너 오케스트레이션 툴, 쿠버네티스 이해하기 (기초) (0) | 2026.01.22 |
| [NCP 실전] DCGM Exporter DaemonSet YAML 상세 해설 (1) | 2026.01.15 |
| [NCP 실전] GPU 노드 오토스케일링시 NVIDIA Device Plugin / DCGM Exporter 자동 설치 (DaemonSet) (1) | 2026.01.14 |
| [중요2][NCP 실전] Kubernetes→ NVIDIA Device Plugin→ DCGM Exporter→ Prometheus→ Grafana 설치 가이드 (0) | 2026.01.14 |
댓글