본문 바로가기
[GPUaaS]/GPUmgt

[GPU 클러스터] InfiniBand Cluster !!

by METAVERSE STORY 2026. 1. 23.
반응형

 

 

좋은 질문이에요. 이거 GPU 클러스터 / 대규모 AI 쪽에서 진짜 핵심 개념입니다.
차근차근, “왜 필요한지 → 뭐가 다른지 → 언제 쓰는지” 순서로 설명할게요.


1️⃣ InfiniBand가 뭐야? (한 줄 요약)

InfiniBand(IB)
👉 GPU 서버들끼리 초고속·초저지연으로 통신하기 위한 데이터센터 전용 네트워크 기술예요.

일반적인 네트워크가 Ethernet(이더넷) 이라면,
InfiniBand는 AI/HPC 전용 초고성능 네트워크라고 보면 됩니다.


2️⃣ 왜 InfiniBand가 필요한가?

❌ 일반 Ethernet의 한계

AI/GPU 클러스터에서 이런 문제가 생깁니다:

  • GPU가 아무리 빨라도
    👉 서버 간 통신이 느리면 전체 학습 속도가 느려짐
  • 대규모 모델 학습 시
    • Gradient 동기화
    • 파라미터 교환
    • All-Reduce 연산
      네트워크가 병목

📉 결과

“GPU는 놀고 있는데, 네트워크 때문에 기다리는 상황”


✅ InfiniBand가 해결하는 것

항목 Ethernet InfiniBand
지연시간 수십~수백 μs 1~2 μs 수준
대역폭 10~100Gbps 200 / 400 / 800 Gbps
CPU 개입 많음 거의 없음 (RDMA)
GPU 통신 간접 GPU ↔ GPU 직접

3️⃣ 핵심 개념 ① RDMA (이게 제일 중요)

RDMA = Remote Direct Memory Access

CPU 거치지 않고
서버 A 메모리 ↔ 서버 B 메모리 직접 전송

일반 통신

 
GPU → CPU → OS → Network → OS → CPU → GPU

InfiniBand (RDMA)

 
GPU ──────────────► GPU

👉 CPU 부하 감소 + 지연 최소화 + 대역폭 극대화

그래서 LLM 학습에서 필수입니다.


4️⃣ InfiniBand 클러스터란?

InfiniBand 네트워크로 연결된 GPU 서버들의 집합

즉,

[GPU Server 1] ─┐
[GPU Server 2] ─┼─ InfiniBand Switch ─ [GPU Server N]
[GPU Server 3] ─┘
 
 

구성 요소

구성 설명
IB NIC (HCA) 서버에 장착된 InfiniBand 네트워크 카드
IB Switch 초고속 전용 스위치
IB Cable DAC / AOC / 광케이블
GPU A100 / H100 / H200 등
Software NCCL, MPI, CUDA-aware

5️⃣ GPU + InfiniBand가 만나면 뭐가 달라져?

🔥 NVIDIA NCCL + InfiniBand

  • GPU 간 AllReduce, Broadcast, Gather 최적화
  • 수백~수천 GPU를 하나의 거대한 GPU처럼 사용

예시: LLM 학습

  • 8 GPU 서버 × 16대 = 128 GPU
  • 파라미터/Gradient 실시간 동기화
  • 네트워크 병목 없이 선형 스케일링에 가까움

6️⃣ 언제 InfiniBand 클러스터를 쓰는가?

✅ 반드시 필요한 경우

  • 대형 LLM 학습 (30B, 70B, 100B+)
  • Multi-node Distributed Training
  • GPU 수십~수백 장 운영
  • AI 연구소 / 빅테크 / 국가 슈퍼컴

❌ 굳이 필요 없는 경우

  • 단일 서버 (8 GPU 이하)
  • Inference 위주
  • 소규모 파인튜닝
    → 이 경우 Ethernet + NVLink 로 충분

7️⃣ Ethernet vs InfiniBand 한 방에 정리

구분 Ethernet 클러스터 InfiniBand 클러스터
구축 비용 낮음 매우 높음
복잡도 쉬움 어려움
성능 보통 최상
AI 학습 규모 소~중 대규모 이상
대표 사용 일반 K8s AI 슈퍼클러스터

8️⃣ 실제 많이 쓰는 조합

GPU 네트워크
A100 IB HDR / NDR
H100 IB NDR 400Gbps
H200 IB NDR / XDR
L40s Ethernet (보통)

👉 그래서 H100-80GB-IB-DDN 같은 이름이 붙는 거예요
= InfiniBand 최적화된 데이터센터 구성


9️⃣ 한 줄로 정리

InfiniBand 클러스터 =
GPU 여러 대를 “하나의 초대형 GPU”처럼 쓰기 위한
초고속·초저지연 AI 전용 네트워크 환경

 

 

반응형

댓글