반응형
(대상: /var/log/syslog, /root/log/syslog 같은 대용량 로그)
✅ 1️⃣ 가장 안전한 기본 – less로 먼저 열기 (필수)
less /root/log/syslog
내부에서
/power
n (다음)
N (이전)
q (종료)
n (다음)
N (이전)
q (종료)
✔ 메모리 부담 적음
✔ 1GB 이상 파일도 안정적
✔ 초보자도 안전
👉 실무 기본 시작점
✅ 2️⃣ grep + less (실무에서 가장 많이 씀 ⭐)
grep -i power /root/log/syslog | less
옵션 설명
- -i : 대소문자 무시
결과 안에서:
/power
n
N
n
N
✔ 필요한 로그만 필터링
✔ 빠름
✔ 가장 많이 쓰는 방식
✅ 3️⃣ 라인번호 + 앞뒤 문맥 포함 (장애 분석 필수 ⭐⭐⭐)
grep -i -n -C 5 power /root/log/syslog | less
옵션
- -n → 라인번호
- -C 5 → 앞뒤 5줄 같이 출력
예시 상황:
Detected insufficient power on the PCIe slot (27W)
→ 왜 발생했는지 앞뒤 로그 같이 확인 가능
👉 GPU / PCIe / Xid 분석 시 거의 필수
✅ 4️⃣ 여러 키워드 동시 검색 (GPU 서버 실무용 ⭐⭐⭐)
grep -Ei "power|pcie|xid|error|fault" /root/log/syslog | less
옵션
- -E → 정규식 사용
- -i → 대소문자 무시
👉 Power 문제 찾다가 Xid, PCIe 오류 같이 추적할 때 사용
✅ 5️⃣ 특정 시간대만 추출 (실무 고급)
예: 07:00 ~ 08:00 로그만 보기
grep "2026-02-20T07:" /root/log/syslog > 7hour.log
less 7hour.log
less 7hour.log
또는 범위 지정:
sed -n '/07:00/,/08:00/p' /root/log/syslog | less
👉 대용량 파일 전체 스캔 안 해서 빠름
✅ 6️⃣ 실시간 장애 추적 (운영 중 필수 ⭐⭐⭐)
tail -f /var/log/syslog | grep -i power
✔ 지금 발생하는 에러 바로 확인
✔ GPU 장애 대응 시 필수
중지:
Ctrl + C
✅ 7️⃣ journalctl 사용 (systemd 서버일 경우)
커널 로그에서 power 확인:
journalctl -k | grep -i power
실시간:
journalctl -kf | grep -i xid
👉 dmesg 보다 더 정확한 경우 많음
✅ 8️⃣ 서버에 부담 없이 검색하는 법 (중요 ⚠)
대용량 로그에서 서버 부하 줄이려면:
grep -i power /root/log/syslog | head -100
또는
grep -m 50 -i power /root/log/syslog
✔ 너무 많은 결과 출력 방지
✔ Bastion 서버에서도 안전
🚀 GPU 서버 장애 분석 추천 순서 (실전 루틴)
- journalctl -k | grep -i xid
- grep -Ei "power|pcie|xid|error" syslog | less
- grep -i -n -C 5 power syslog
- 시간대 좁혀서 재검색
- 실시간 tail 로 재현 확인
📌 초보자 기준 정리
| 상황 | 쓰는 명령어 |
| 그냥 열어서 검색 | less |
| 키워드만 보기 | grep + less |
| 앞뒤 로그 보기 | -C 5 |
| 여러 에러 같이 보기 | -Ei |
| 실시간 확인 | tail -f |
| 커널 로그 | journalctl -k |
반응형
'[GPUaaS] > GPUmgt' 카테고리의 다른 글
| [마운트] /etc/fstab vs /etc/rc.local 차이 !! (0) | 2026.02.27 |
|---|---|
| [분산 학습] 부동소수점 연산 !! (1) | 2026.02.22 |
| [분산 학습] Tensor 란!! (0) | 2026.02.21 |
| [분산 학습] AllReduce & AllReduce mismatch 란 !! (0) | 2026.02.21 |
| [Syslog] mlx5_core ... Detected insufficient power on the PCIe slot (27W) (0) | 2026.02.21 |
| [GPU서버 HW문제] NaN 발생 가능성 !! (0) | 2026.02.21 |
| [분산 학습] 운영 관점에서 NaN vs Inf 차이 !! (0) | 2026.02.21 |
| [분산 학습] NaN 반드시 알아야 하는 개념 !! (0) | 2026.02.21 |
댓글