본문 바로가기
반응형

[GPUaaS]/GPUmgt48

[🚀 GPU] MLXP vs Run.ai vs Slurm 완전 정리 !! 📌 1. 먼저 전체 그림부터 이해하자AI 인프라는 크게 이렇게 구성됨👇[사용자 (연구원 / 개발자)] ↓[Job 실행 시스템 (MLXP / Run.ai / Slurm)] ↓[스케줄러] ↓[GPU 서버 (A100 / H100 등)] 👉 핵심은 여기👉 “누가 GPU를 언제 어떻게 쓰게 할 것인가?”🧠 2. Slurm (전통 HPC 방식)📌 한줄 정의👉 Slurm = GPU 서버 예약 시스템⚙️ 구조[사용자] ↓ sbatch / srun[Slurm Controller] ↓[Compute Node (GPU 서버)] 💡 특징노드 기반 예약GPU 단위로 할당큐(queue) 방식HPC 환경 (슈퍼컴퓨터)🧪 예시 sbatch -N 2 --gres=gpu:8 train.sh 👉 의미:노드 2개GPU 8.. 2026. 4. 12.
[🚀 GPU] FlashAttention 완벽 가이드 (초보자용) 🚀 FlashAttention 완벽 가이드 (초보자용)GPU 성능을 2~4배 끌어올리는 핵심 기술📌 1. FlashAttention이란?👉 한 줄 정의FlashAttention은 Transformer의 Attention 연산을 빠르고 메모리 효율적으로 만드는 기술🧠 쉽게 비유하면기존 방식 👇👉 “모든 계산을 다 메모리에 저장하면서 처리”→ 느리고 메모리 터짐FlashAttention 👇👉 “필요한 것만 그때그때 계산”→ 빠르고 가벼움⚙️ 2. 왜 중요한가?Transformer 구조에서 가장 무거운 부분 👇Q × Kᵀ → Softmax → V 문제는:항목기존 문제속도느림메모리엄청 많이 사용확장성시퀀스 길어지면 터짐🔥 FlashAttention 적용 시항목개선속도2~4배 빨라짐메모리최대 1.. 2026. 4. 12.
[TFLOPS] Floating Point Operations Per Second !! ✅ TFLOPS 한방 정리👉 TFLOPS = GPU 연산 성능 속도"GPU가 1초에 얼마나 많은 계산을 할 수 있는가?"✅ 1. 단어부터 이해✔ FLOPSFLOPS = Floating Point Operations Per Second👉 1초 동안 수행하는 실수 연산 횟수✔ Tera (T)1 Tera = 1조 (10¹²)✅ 그래서 TFLOPS는?👉1 TFLOPS=1012 FLOPS1\ TFLOPS = 10^{12}\ FLOPS1 TFLOPS=1012 FLOPS👉 의미:1초에 1조 번 계산 가능✅ 2. 쉽게 비유🧠 CPU vs GPU장비계산 능력CPU몇십 GFLOPSGPU수백 TFLOPS👉 GPU가 AI에 쓰이는 이유 = 연산량 압도적🚗 비유FLOPS → "엔진 출력"TFLOPS → "초고성능 .. 2026. 4. 10.
[리벨리온 NPU란?] NPU vs GPU 핵심 차이!! 🔥 리벨리온 NPU 한방 정리 (GPU 엔지니어 기준) 1️⃣ 리벨리온 NPU란?**Rebellions**에서 만든👉 AI 전용 반도체 (NPU: Neural Processing Unit)한줄 요약:GPU 대신 AI 연산만 집중해서 더 빠르고 효율적으로 처리하는 칩 2️⃣ NPU vs GPU (핵심 차이)구분GPUNPU목적범용 병렬 연산AI 전용대표NVIDIA H100리벨리온 ATOM구조CUDA 코어 기반Tensor/AI 연산 특화효율좋음🔥 매우 좋음전력높음낮음사용처학습 + 추론주로 추론 (Inference)👉 핵심 포인트GPU = 만능 (학습 + 추론)NPU = AI만 잘함 (특히 추론 최적화) 3️⃣ 리벨리온 NPU 종류🔹 ATOM (대표 제품)금융/데이터센터 추론 특화Transformer.. 2026. 4. 7.
🚀[GPU] H100 vs H200 vs B200 vs Vera Rubin 완벽 이해 가이드 (초보자용) 📌 1. 한 줄 핵심 요약H100 / H200 / B200 → GPU (부품)Vera Rubin → 플랫폼 (전체 시스템)👉 즉, 같은 급 비교는 아님📌 2. 전체 흐름 (세대 구조)Hopper (H100) ↓Hopper 개선형 (H200) ↓Blackwell (B200) ↓Rubin (차세대 플랫폼) 👉 흐름 이해가 핵심📌 3. GPU vs 플랫폼 (가장 중요)GPU (부품)H100H200B200👉 단일 카드 / 가속기플랫폼 (시스템)Vera Rubin구성:CPU (Vera)GPU (Rubin)NVLink네트워크랙 구조👉 데이터센터 전체를 하나의 컴퓨터처럼 사용하는 개념 📌 4. 각각 쉽게 설명🧠 H100 (Hopper)AI GPU 기준점Transformer EngineFP8 지원👉 .. 2026. 4. 6.
🌐 [WEB Error] 401 / 403 / 500 / 504 완전 정리 (초보자용) 웹사이트를 사용하다 보면 이런 에러를 많이 보셨을 겁니다.401 Unauthorized 403 Forbidden 500 Internal Server Error 504 Gateway Timeout 👉 이 숫자들은 단순한 에러가 아니라“문제가 어디에서 발생했는지 알려주는 힌트” 입니다.📌 1. 한 번에 이해하는 핵심 요약딱 이것만 먼저 기억하세요 👇코드의미한 줄 설명401인증 실패“너 누구야?”403권한 없음“너는 맞는데 못 들어와”500서버 오류“서버가 터졌어”504시간 초과“너무 느려서 포기함”📌 2. 웹 요청 흐름 먼저 이해하기웹 에러는 요청 흐름을 이해하면 훨씬 쉽습니다.[사용자] → [웹서버(Nginx)] → [백엔드(API)] → [DB] 👉 어디에서 문제가 생기느냐에 따라 에러가 달라집.. 2026. 4. 6.
[스토리지] TB (테라바이트) vs TiB (테비바이트) !! 1. 결론부터TB (테라바이트) = 10진수 기준1 TB = 1,000,000,000,000 Byte제조사 디스크 표기, 스토리지 벤더 광고 용량에서 많이 사용TiB (테비바이트) = 2진수 기준1 TiB = 1,099,511,627,776 ByteOS, 리눅스, 파일시스템, 메모리/블록 단위 계산에서 자주 등장즉,TB는 1000 기준TiB는 1024 기준입니다.2. 왜 두 개가 생겼나컴퓨터는 원래 2진수(1024 단위) 로 계산하는 경우가 많았습니다.예전에는 사람들이 편하게1KB = 1024 Byte1MB = 1024 KB1GB = 1024 MB처럼 많이 썼습니다.그런데 저장장치 제조사들은 마케팅과 표기 일관성을 위해 국제단위계(SI) 기준인 1000 단위를 사용했습니다.그래서 같은 “1TB”라고 해도.. 2026. 4. 2.
[GPU] 사용률 평균 계산법 완벽 정리 (일반평균 vs 가중평균) 📊 GPU 사용률 평균 계산법 완벽 정리 (일반평균 vs 가중평균)GPU 운영 데이터를 보다 보면 가장 많이 헷갈리는 부분이 바로 **“평균 계산 방식”**이다.특히 일반 평균 vs 가중 평균은 결과가 크게 달라지기 때문에 정확히 이해해야 한다.이 글에서는 GPU 사용률을 기준으로 실무에서 반드시 알아야 할 평균 계산 방법을 정리한다.1️⃣ 일반 평균 (단순 평균)이란?✔ 개념👉 각 사용자의 값을 그대로 평균 낸 것일반평균 = (사용률1 + 사용률2 + ... + 사용률N) / N ✔ 예시사용자GPU 사용률A4.23%B7.99%(4.23 + 7.99) / 2 = 6.11% 👉 결과: 6.11%✔ 특징모든 사용자를 동일하게 취급GPU 개수 고려 ❌실제 사용량과 괴리 발생 가능❌ 문제점GPU 2개 쓰는.. 2026. 4. 1.
[GCP] 구글 클라우드 스터디 잼 (4/1-6/1) 2026 구글 클라우드 스터디잼 - H1-Study-Jam 2026 구글 클라우드 스터디잼 - H1-Study-Jam구글 클라우드 스터디 잼 (4/1-6/1) AI, Data, Cloud를 무료로 배우고 구글 한정판 굿즈를 획득하세요!sites.google.com 🚀 2026 구글 클라우드 스터디잼 (Google Cloud Study Jam)2026년에 진행되는 구글 클라우드 스터디잼은👉 AI + 클라우드 기술을 무료로 배우는 공식 학습 프로그램입니다.📌 1. 한줄 요약👉 무료로 Google AI·Cloud 배우고, 실습 + 굿즈 + 해커톤까지 참여하는 프로그램📅 2. 2026 일정 (상반기 기준)📌 모집 마감: 4월 1일 오전 10시📌 학습 기간: 2026.04.01 ~ 06.01📌 수.. 2026. 3. 30.
[GCC / MAKE / CONDA] 개발 핵심 도구들 !! 1️⃣ gcc (컴파일러) 👉 “코드를 실행파일로 바꿔주는 번역기”✔ 개념gcc = GNU Compiler Collection사람이 작성한 C/C++ 코드를 → 컴퓨터가 이해하는 **실행파일(binary)**로 변환✔ 쉽게 말하면👉 “영어를 한국어로 번역해주는 번역기 같은 역할”hello.c (사람이 작성한 코드) ↓ gcchello (실행파일) ✔ 예시 gcc hello.c -o hello./hello ✔ 왜 필요?Python만 쓰면 필요 없음하지만 아래 상황이면 필수 👇상황이유PyTorch / TensorFlow 빌드내부적으로 C++ 사용pip install 실패일부 패키지 컴파일 필요CUDA 커스텀 코드C++ + GPU 코드HPC 라이브러리대부분 C/C++ 기반👉 그래서 “gcc 없으면 설치.. 2026. 3. 29.
[NVIDIA] NVLink vs NCCL 한방 정리!! 1️⃣ NVLink vs NCCL 한방 정리구분NVLinkNCCL정체GPU 간 물리 연결(하드웨어)GPU 간 통신 라이브러리(소프트웨어)역할GPU ↔ GPU 데이터 고속 전송분산학습 시 데이터 동기화위치GPU 카드 / 보드 / NVSwitchPyTorch / TensorFlow 내부장애 영향GPU 간 속도 ↓ 또는 연결 끊김학습 멈춤 / Timeout / Hang👉 쉽게 말하면NVLink = 도로(하드웨어)NCCL = 그 도로를 사용하는 물류 시스템(소프트웨어) 2️⃣ NVLink 하드웨어 문제란?✔️ 개념GPU끼리 직접 연결된 초고속 인터커넥트예:H100 / H200 → NVLink + NVSwitch속도: PCIe보다 훨씬 빠름✔️ 정상 상태 nvidia-smi topo -m 👉 예시GPU0 G.. 2026. 3. 28.
[마운트] /etc/fstab vs /etc/rc.local 차이 !! 둘 다 부팅 시 실행되는 설정이긴 한데, 역할이 완전히 다릅니다.특히 “마운트” 관점에서 보면 차이를 확실히 알아두는 게 좋아요.✅ 핵심 한 줄 정리/etc/fstab → 마운트 전용 설정 파일 (자동 마운트 표준 방법)/etc/rc.local → 부팅 시 실행하는 사용자 스크립트 (임의 명령 실행)둘 다 재부팅 후 동작할 수 있지만👉 목적 / 실행 방식 / 권장 여부가 완전히 다릅니다.✅ 1. /etc/fstab 역할 (정식 자동 마운트 설정)✔ 무엇인가?파일 시스템을 부팅 시 자동으로 마운트하도록 정의하는 표준 설정 파일Linux 부팅 과정에서 systemd / mount 서비스가 읽어서 실행합니다.✔ 주요 목적디스크 / 파티션 / NFS / Lustre 등 자동 마운트swap 활성화마운트 옵션 관.. 2026. 2. 27.
[vi편집기/less] 대용량(GB급) 로그 실무 분석 기준 !! (대상: /var/log/syslog, /root/log/syslog 같은 대용량 로그)✅ 1️⃣ 가장 안전한 기본 – less로 먼저 열기 (필수) less /root/log/syslog 내부에서 /powern (다음)N (이전)q (종료) ✔ 메모리 부담 적음✔ 1GB 이상 파일도 안정적✔ 초보자도 안전👉 실무 기본 시작점 ✅ 2️⃣ grep + less (실무에서 가장 많이 씀 ⭐) grep -i power /root/log/syslog | less 옵션 설명-i : 대소문자 무시결과 안에서: /powernN ✔ 필요한 로그만 필터링✔ 빠름✔ 가장 많이 쓰는 방식 ✅ 3️⃣ 라인번호 + 앞뒤 문맥 포함 (장애 분석 필수 ⭐⭐⭐) grep -i -n -C 5 power /root/log.. 2026. 2. 22.
[분산 학습] 부동소수점 연산 !! GPU / 분산학습 / HPC 환경에서 아주 중요한 개념1️⃣ 부동소수점이란?우리가 아는 숫자: 103.140.001123456.789 이처럼 소수점이 있는 숫자를 컴퓨터에서는👉 부동소수점(Floating Point) 방식으로 저장합니다.왜 "부동(浮動)" 이냐?소수점 위치가 고정되지 않고 "떠서 움직인다" 2️⃣ 고정소수점 vs 부동소수점📌 고정소수점 (Fixed Point)소수점 위치가 고정 1234 → 12.34 로 약속 장점: 계산 빠름단점: 표현 범위 좁음📌 부동소수점 (Floating Point)과학적 표기법처럼 표현 3.14 = 3.14 × 10⁰314 = 3.14 × 10²0.0314 = 3.14 × 10⁻² 컴퓨터는 이걸 2진수로 저장합니다. 3️⃣ 컴퓨터는 어떻게 저장하나.. 2026. 2. 22.
[분산 학습] Tensor 란!! 1️⃣ 먼저 숫자부터 시작해봅시다✅ 0차원 → 스칼라 (숫자 하나) 5 ✅ 1차원 → 벡터 (리스트) [1, 2, 3] ✅ 2차원 → 행렬 (표 형태) [[1, 2], [3, 4]] ✅ 3차원 이상 → 여러 장의 행렬예: 이미지 여러 장 2️⃣ 그럼 tensor란?📦 tensor는 "숫자들이 들어있는 다차원 박스"쉽게 말하면:스칼라도 tensor벡터도 tensor행렬도 tensor3차원, 4차원도 tensor전부 tensor입니다. 3️⃣ 딥러닝에서 tensor는 뭐냐?딥러닝에서 모든 것은 tensor입니다.예:입력 데이터 → tensor모델 weight → tensorgradient → tensorloss 값 → tensor예를 들어PyTorch 에서는 import torchx = torc.. 2026. 2. 21.
[분산 학습] AllReduce & AllReduce mismatch 란 !! 1️⃣ 먼저 “분산학습”이 뭐냐?64노드면 예를 들어:노드 1: GPU 8개노드 2: GPU 8개...총 64노드모든 GPU가 같은 모델을 복사해서 동시에 학습합니다.이 방식을 보통PyTorch DDP같은 구조로 많이 사용합니다. 2️⃣ 그럼 문제는 뭘까?각 GPU는:서로 다른 데이터를 보고각자 gradient를 계산합니다.하지만 모델은 하나의 동일한 상태를 유지해야 합니다.그래서 필요한 게 👇 3️⃣ AllReduce란?AllReduce는📡 모든 GPU의 값을 모아서➕ 더한 뒤🔁 다시 모든 GPU에게 동일하게 나눠주는 통신 연산입니다.보통 통신은NVIDIA NCCL 라이브러리를 사용합니다. 4️⃣ 그림으로 이해하기예를 들어 GPU 4개가 있다고 합시다.각 GPU가 gradient를 계산: .. 2026. 2. 21.
[Syslog] mlx5_core ... Detected insufficient power on the PCIe slot (27W) mlx5_core ... Detected insufficient power on the PCIe slot (27W) 이건 정상 상태가 아닙니다. 1️⃣ 이 메시지의 정확한 의미이 로그는 보통 Mellanox NIC(IB 카드) 드라이버에서 나옵니다.해당 장비는 현재는 NVIDIA 산하 제품입니다.의미는:🔌 해당 PCIe 슬롯이 카드가 요구하는 전력보다 낮은 전력을 공급하고 있다.예:카드 요구 전력: 75W실제 공급: 27W→ 비정상 상태 2️⃣ 그럼 학습이 아예 안 되나요?✔ 경우 1: NIC 문제일 경우 (mlx5_core 로그라면 이 가능성 높음)GPU는 정상 동작단일 노드 학습은 가능분산 통신(IB)이 불안정 👉 이 경우:학습은 시작됨통신 중 에러 발생 가능NCCL hangwatchdog .. 2026. 2. 21.
[GPU서버 HW문제] NaN 발생 가능성 !! 1️⃣ HW 문제로 NaN이 발생하는 원리딥러닝 학습은 GPU에서 부동소수점 연산을 수행합니다.이 연산 중 비트 오류가 발생하면 값이 깨질 수 있습니다.깨진 값이:매우 큰 수 → Inf잘못된 연산 → NaN으로 이어질 수 있습니다. 2️⃣ 실제로 발생 가능한 HW 원인들🔴 ① GPU 메모리 오류 (ECC 에러)GPU VRAM에서 비트 오류 발생 시연산 결과 오염gradient 깨짐loss NaN특히 ECC OFF 상태면 검출 못 할 수도 있습니다.확인 명령: nvidia-smi -q | grep -i ecc GPU는 보통 NVIDIA 제품일 가능성이 높죠.🔴 ② Xid 에러 발생GPU 내부 오류가 나면 커널 로그에 Xid 발생: dmesg | grep -i xid 예:Xid 13Xid 31Xid.. 2026. 2. 21.
[분산 학습] 운영 관점에서 NaN vs Inf 차이 !! 1️⃣ 기본 개념 차이 구분 NaN Inf 의미Not a NumberInfinity (무한대)뜻계산이 정의되지 않음값이 너무 커서 무한대로 발산비교 연산자기 자신과도 같지 않음크기 비교 가능 2️⃣ 언제 발생하나?🔥 Inf 발생 상황값이 너무 커질 때 1e308 * 1e308 또는 1 / 0 결과: inf 즉,💥 값이 “폭발”하면 Inf 🔥 NaN 발생 상황정의되지 않은 연산 0 / 0 inf - inf sqrt(-1) # 실수 범위 log(-5) 결과: nan 즉,❌ 수학적으로 정의되지 않으면 NaN 3️⃣ 딥러닝 학습 흐름에서의 차이실제로는 이렇게 진행됩니다 gradient 증가 → weight 증가 → 값 overflow → inf 발생 → 연산 진행 → inf - inf.. 2026. 2. 21.
[분산 학습] NaN 반드시 알아야 하는 개념 !! 1️⃣ NaN 이란?NaN = Not a Number👉 “숫자가 아니다” 라는 뜻입니다.컴퓨터에서 계산 결과가 정상적인 숫자로 표현될 수 없을 때 나오는 값입니다.예시: 0 / 0 sqrt(-1) # 실수 범위에서 log(-5) 이런 연산을 하면 결과가 NaN이 됩니다. 2️⃣ 딥러닝 학습에서 NaN이 의미하는 것학습 중 NaN이 발생한다는 건:🔥 모델 계산이 망가졌다는 의미주로 이런 상황입니다:Loss가 갑자기 nangradient가 nanweight 값이 nan전체 학습이 멈춤 (watchdog 발생 가능) 3️⃣ 대규모 노드 분산 학습에서 왜 더 위험한가?노드가 많을수록 위험도가 커집니다.이유하나의 GPU에서 NaN 발생AllReduce 통신으로 전체 노드에 전파64노드 전체가 오염학습.. 2026. 2. 21.
[Not a Number] NaN이란 무엇인가? 1. NaN이란 무엇인가?NaN은 Not a Number의 약자로, 컴퓨터 과학에서 '숫자가 아님'을 나타내는 값입니다. 수학적으로 정의할 수 없거나 표현 불가능한 연산 결과가 나왔을 때 발생합니다.딥러닝 학습 중에 NaN이 떴다는 것은 **"모델의 수치 계산이 완전히 망가져서 더 이상 학습을 진행할 수 없다"**는 사망 선고와 같습니다.왜 발생하나요? (수학적 원인)0으로 나누기: 어떤 값을 0으로 나눌 때.무한대 연산: $\infty - \infty$ 또는 $0 \times \infty$ 같은 연산.로그 함수의 함정: $\log(0)$이나 $\log(-1)$ 처럼 정의되지 않는 값을 계산할 때.너무 큰 숫자: 부동 소수점 데이터 타입(float32 등)이 표현할 수 있는 범위를 넘어서는 큰 값($10.. 2026. 2. 21.
[GPU] 스크립트 사용 프로세스 확인 및 삭제 방법!! 0번 GPU를 점유 중인 프로세스를 찾아 종료하는 과정은 nvidia-smi를 활용하면 간단합니다. 서비스에 영향이 가지 않도록 조심스럽게 진행해야 하므로 아래 단계를 따라주세요.1. 0번 GPU 사용 프로세스 확인먼저 어떤 프로세스(PID)가 GPU 0번을 잡고 있는지 확인합니다.Bash nvidia-smi -i 0명령어 결과 하단의 Processes 섹션을 확인하세요.GPU: 0 (우리가 타겟팅한 번호)PID: 프로세스 아이디 (예: 12345)Type: C (Compute) 또는 G (Graphic)Process name: 실행 중인 프로그램 이름 (python, java, Xorg 등)2. 프로세스 종료 방법 (Linux 기준)확인한 PID를 이용해 프로세스를 종료합니다. 안전을 위해 두 단계를 .. 2026. 2. 19.
[nvidia-healthmon] 파일 위치 및 주의사항 !! nvidia-healthmon은 운영 중인 서버에서 실행할 때 몇 가지 주의사항이 있습니다. 단순히 상태를 조회하는 nvidia-smi와 달리, 실제 진단 로직을 수행하기 때문입니다.1. 소요 시간보통 수초에서 수분 내외로 끝납니다.단순 점검: 수초 내에 완료됩니다. (소프트웨어 설정, 드라이버 상태 등)전체 진단: 하드웨어 및 데이터 무결성 검사가 포함될 경우 시스템 사양에 따라 1~2분 이상 소요될 수 있습니다.특이사항: 문제가 발견되어 타임아웃이 발생하거나 로그를 생성할 때는 시간이 더 길어질 수 있습니다.2. 운영 중 부하 및 영향 (매우 중요)결론부터 말씀드리면, **"서비스 중인 GPU에서는 실행하지 않는 것이 원칙"**입니다.CUDA 컨텍스트 생성: nvidia-healthmon은 실행 시 .. 2026. 2. 19.
nvidia-smi (System Management Interface) VS nvidia-healthmon (Tesla Health Monitor) !! NVIDIA GPU를 관리하다 보면 두 도구를 모두 접하게 되지만, 사용 목적과 깊이에서 확실한 차이가 있습니다. 아주 짧게 요약하자면 **nvidia-smi는 '현재 상태 모니터링'**용이고, **nvidia-healthmon은 '정밀 하드웨어 진단'**용입니다.1. 주요 차이점 비교구분nvidia-smi (System Management Interface)nvidia-healthmon (Tesla Health Monitor)주요 목적실시간 상태 확인 및 간단한 설정 변경하드웨어 결함 및 시스템 설정 오류 진단사용 시점평상시 (온도, 전력, 메모리 사용량 확인)문제 발생 시 (에러 발생, 성능 저하, 배포 전 점검)진단 수준표면적인 수치 보고하드웨어 회로, 데이터 무결성 등 심층 점검실행 방식백그라운드.. 2026. 2. 19.
Ceph vs Lustre 차이 !! HPC/AI 환경에서 가장 많이 비교되는 조합🔥 Ceph vs Lustre 차이구조 → 성능 → 사용 목적 → 실제 현업 선택 기준 1️⃣ 기본 정체부터 다름🔵 Ceph범용 분산 스토리지블록 / 파일 / 오브젝트 다 지원클라우드 친화적🔴 LustreHPC 전용 병렬 파일 시스템초고속 대용량 파일 처리 목적슈퍼컴에서 많이 사용 2️⃣ 구조 차이 (쉽게 그림으로 이해)🔵 Ceph 구조 [Client] ↓ [Ceph Cluster] ├─ OSD (데이터 저장) ├─ MON (상태관리) └─ MGR (관리) ✔ 완전 분산✔ 데이터 자동 복제✔ 장애 자동 복구🔴 Lustre 구조 [Client] ↓ [MDS] ← 메타데이터 ↓ [OSS] ← 실제 데이터 ↓ .. 2026. 2. 18.
[Ceph] 대용량 분산 스토리지 시스템 !! 1️⃣ Ceph가 뭐냐면?**Ceph**는여러 서버의 디스크를 하나로 묶어서대용량 분산 스토리지 시스템을 만드는 오픈소스 스토리지 플랫폼이야.쉽게 말하면:여러 서버의 NVMe / HDD를 모아서하나의 거대한 스토리지처럼 쓰게 해주는 시스템2️⃣ Ceph는 어디에 쓰이냐?보통 이런 곳에서 사용해:클라우드 인프라 (OpenStack)쿠버네티스 스토리지AI/HPC 클러스터대규모 백업 스토리지S3 호환 오브젝트 스토리지3️⃣ lsblk 결과 분석해보자이 부분이 중요 👇 nvme1n1 (7T)└─ceph--...-osd--block--... nvme0n1 (7T)└─ceph--...-osd--block--... 이건 무슨 뜻이냐면:nvme0n1 → Ceph OSD로 사용 중nvme1n1 → Ceph OSD로 .. 2026. 2. 18.
[ECC ON] 체크 스크립트 !! ssh IP주소 "nvidia-smi -q | grep -A3 'ECC Mode'" ============================== #!/bin/bash TARGET="IP주소" echo "========== $TARGET ECC STATUS CHECK ==========" ssh $TARGET ' ECC_STATUS=$(nvidia-smi -q -d ECC | grep "Current" | head -1 | awk "{print \$3}") if [ "$ECC_STATUS" = "Enabled" ]; then echo "ECC PASS (Enabled)" else echo "ECC FAIL (Disabled)" fi ' ========================= ssh I.. 2026. 2. 18.
[Lustre 병렬 파일시스템] 초대형 AI / 슈퍼컴퓨터 전용 파일시스템 !! HPC + InfiniBand + 여러 IP NAS 구조라서, 거의 99% Lustre 계열 병렬 파일시스템입니다.1️⃣ Lustre가 뭐냐?Lustre 는👉 초대형 AI / 슈퍼컴퓨터 전용 파일시스템입니다.👉 수십~수천 대 서버가 같은 저장소를 동시에 빠르게 쓰기 위해 만든 기술입니다.일반 NAS(NFS)랑은 급이 다릅니다.2️⃣ 왜 필요하냐?예를 들어:GPU 노드 64대각 노드가 동시에 학습 데이터 읽음초당 수십~수백 GB 필요일반 NAS면: 🚨 병목 발생 → 학습 멈춤 → NCCL timeout → 워치독 그래서 만든 게 Lustre입니다.3️⃣ Lustre 구조 (초보자 핵심)Lustre는 3가지 서버로 구성됩니다.① MDS (Metadata Server)👉 파일 이름 관리 담당👉 "파.. 2026. 2. 18.
[NVMe 번호는 고정 아님] 부팅 시 인식 순서가 달라짐 !! 🔎 왜 nvme0n1이 붙었을까?리눅스에서 NVMe 번호는 고정이 아닙니다.부팅 시 디바이스 인식 순서에 따라: nvme0n1nvme1n1nvme2n1 번호가 바뀔 수 있습니다.즉:디스크가 물리적으로 바뀐 게 아니라부팅 시 인식 순서가 달라졌을 가능성이 큽니다.특히:NVMe 여러 개 있을 때BIOS 설정 변경디스크 재파티셔닝재부팅이런 작업 후 자주 발생합니다.✅ 사용에 문제 있나요?✔ 현재 마운트가 정상이라면 df -h | grep enroot 정상 용량(7T) 나오면 사용 자체는 문제 없습니다.성능도 동일합니다.NVMe 모델이 같다면 차이 없습니다.🚨 하지만 중요한 것/dev/nvme0n1 처럼 디바이스 이름으로 fstab 설정하면 위험합니다.왜냐하면 다음 부팅에 또 바뀔 수 있기 때문입니다.✅.. 2026. 2. 12.
[MBR(msdos) 파티션] MBR 방식 = 2TB 한계 / GPT 방식 (2TB 제한 제거 🔥) nvme1n1 7T disk └─nvme1n1p1 7T part 👉 이 말은 fdisk에서 실제로는 7T로 안 만들어진 것입니다.보통 원인은 2가지입니다: 🔎 원인 1️⃣ MBR(msdos) 파티션 테이블 사용 중MBR 방식이면 최대 2TB 제한이 있습니다.7TB 디스크에서 p1이 2TB로 고정되는 가장 흔한 원인입니다 🔥확인해봅시다: parted -l | grep "Partition Table" 또는 fdisk -l /dev/nvme1n1 출력에: Disklabel type: dos 라고 나오면 👉 MBR 방식 = 2TB 한계 🎯 해결 방법 (확실한 해결책)👉 GPT 로 변경해야 7TB 전체 사용 가능⚠ 이 작업은 파티션 구조 초기화입니다.(하지만 지금 어차피 재구성 중이.. 2026. 2. 12.
반응형