본문 바로가기
[GPUaaS]/GPUmgt

[vi편집기/less] 대용량(GB급) 로그 실무 분석 기준 !!

by METAVERSE STORY 2026. 2. 22.
반응형

 

 

 

(대상: /var/log/syslog, /root/log/syslog 같은 대용량 로그)


✅ 1️⃣ 가장 안전한 기본 – less로 먼저 열기 (필수)

 
 
less /root/log/syslog
 

내부에서

 
 
/power
n (다음)
N (이전)
q (종료)
 

✔ 메모리 부담 적음
✔ 1GB 이상 파일도 안정적
✔ 초보자도 안전

👉 실무 기본 시작점

 

 


✅ 2️⃣ grep + less (실무에서 가장 많이 씀 ⭐)

 
 
grep -i power /root/log/syslog | less
 

옵션 설명

  • -i : 대소문자 무시

결과 안에서:

 
 
/power
n
N
 

✔ 필요한 로그만 필터링
✔ 빠름
✔ 가장 많이 쓰는 방식

 

 


✅ 3️⃣ 라인번호 + 앞뒤 문맥 포함 (장애 분석 필수 ⭐⭐⭐)

 
 
grep -i -n -C 5 power /root/log/syslog | less
 

옵션

  • -n → 라인번호
  • -C 5 → 앞뒤 5줄 같이 출력

예시 상황:

 
 
Detected insufficient power on the PCIe slot (27W)
 

→ 왜 발생했는지 앞뒤 로그 같이 확인 가능

👉 GPU / PCIe / Xid 분석 시 거의 필수

 

 


✅ 4️⃣ 여러 키워드 동시 검색 (GPU 서버 실무용 ⭐⭐⭐)

 
 
grep -Ei "power|pcie|xid|error|fault" /root/log/syslog | less
 

옵션

  • -E → 정규식 사용
  • -i → 대소문자 무시

👉 Power 문제 찾다가 Xid, PCIe 오류 같이 추적할 때 사용

 

 


✅ 5️⃣ 특정 시간대만 추출 (실무 고급)

예: 07:00 ~ 08:00 로그만 보기

 
 
grep "2026-02-20T07:" /root/log/syslog > 7hour.log
less 7hour.log
 

또는 범위 지정:

 
 
sed -n '/07:00/,/08:00/p' /root/log/syslog | less
 

👉 대용량 파일 전체 스캔 안 해서 빠름

 

 


✅ 6️⃣ 실시간 장애 추적 (운영 중 필수 ⭐⭐⭐)

 
 
tail -f /var/log/syslog | grep -i power
 

✔ 지금 발생하는 에러 바로 확인
✔ GPU 장애 대응 시 필수

중지:

 
 
Ctrl + C
 

 

 


✅ 7️⃣ journalctl 사용 (systemd 서버일 경우)

커널 로그에서 power 확인:

 
 
journalctl -k | grep -i power
 

실시간:

 
 
journalctl -kf | grep -i xid
 

👉 dmesg 보다 더 정확한 경우 많음

 

 


✅ 8️⃣ 서버에 부담 없이 검색하는 법 (중요 ⚠)

대용량 로그에서 서버 부하 줄이려면:

 
 
grep -i power /root/log/syslog | head -100
 

또는

 
 
grep -m 50 -i power /root/log/syslog
 

✔ 너무 많은 결과 출력 방지
✔ Bastion 서버에서도 안전

 

 


🚀 GPU 서버 장애 분석 추천 순서 (실전 루틴)

  1. journalctl -k | grep -i xid
  2. grep -Ei "power|pcie|xid|error" syslog | less
  3. grep -i -n -C 5 power syslog
  4. 시간대 좁혀서 재검색
  5. 실시간 tail 로 재현 확인

 

 


📌 초보자 기준 정리

상황 쓰는 명령어
그냥 열어서 검색 less
키워드만 보기 grep + less
앞뒤 로그 보기 -C 5
여러 에러 같이 보기 -Ei
실시간 확인 tail -f
커널 로그 journalctl -k

 

 

 

반응형

댓글