반응형
증상
- SQL서버에 사용중
- 트래픽이나 Query/s 의 수치는 평시와 같음
- Lock Wait Time이 급격히 증가
- Slow Queries/s 최대 30초 이상으로 급격이 증가
- DISK IO Utilization 급격히 증가
Fusion-io 상태
- Fusion-io 의 수명 끝나 하기와 같은 상태 정보를 보임
- fio-status로 출력되는 지표 정보
- PBW(PetaBytes Written) : -19.96% (수명이 남았다면 +)
- Reserve space status : Reservers 0.00%
- PBW가 -로 돌아섰다고 해서 수명이 완전히 끝난것은 아니다. 다만 교체를 준비해야 할 시기임을 수치로 보여주는 것으로 실제 운영에서는 -로 돌아서기 전에 교체나 마이그레이션 계획을 세우는 것이 안정성을 확보하는 것이라 볼 수 있다.
- 실제 Fusion-io를 사용하는 다른서버의 경우 아래 그림과 같이 PBW 가 -로 돌아섰지만 문제 없이 운영되고 있다.
- 금번의 문제는 Reserve space가 0%로 되면서 급격한 퍼포먼스 하락이 원인으로 보아야하며 1월에 26% 이던것이 3-4개월 만에 0%로 떨어졌다. 평시 처리하는 쿼리는 초당 10만건 정도 이다.
참고
- 장애 당시 Pinpoint request 처리 시간 그래프
- Fail수치가 증가하고 폭포 수 형태의 그래프가 그려짐
- System Kernel Log
- 시스템 로그에서 나타난 kernel:INFO: task 의 메세지를 나타내는 의미는 현재 운영하고자 하는 SQL에 대해서 120초 (2분 default) 동안 khungtaskd 쓰레드에서 D-state 상태를 감지하여 call trace 를 호출하게 되는 상황으로 예측할 수 있음.
- 주요 원인은 시스템의 성능저하 특히 레드햇의 보고서에 의하면 디스크의 heavy I/O 로 나타나는 문제점으로 예측.
반응형
'하드웨어' 카테고리의 다른 글
[DISK RAID] Dell iDRAC Dedicated Hot Spare 잡기 (0) | 2022.05.12 |
---|---|
[DISK RAID] Dell iDRAC Rebuild (0) | 2022.05.12 |
[DISK RAID] Dell iDRAC CopyBack (0) | 2022.05.12 |
[hardware] Memory EDAC 관련 로그(1) (0) | 2021.03.18 |
[MegaRaid] MegaCli (0) | 2021.03.17 |