본문 바로가기

하드웨어

[Fusion-IO] 수명 문제

반응형

증상

  • SQL서버에 사용중
  • 트래픽이나 Query/s 의 수치는 평시와 같음
  • Lock Wait Time이 급격히 증가
  • Slow Queries/s 최대 30초 이상으로 급격이 증가
  • DISK IO Utilization 급격히 증가

 

Fusion-io 상태

  • Fusion-io 의 수명 끝나 하기와 같은 상태 정보를 보임
    • fio-status로 출력되는 지표 정보
    • PBW(PetaBytes Written) : -19.96% (수명이 남았다면 +)
    • Reserve space status : Reservers 0.00% 

 

  • PBW가 -로 돌아섰다고 해서 수명이 완전히 끝난것은 아니다. 다만 교체를 준비해야 할 시기임을 수치로 보여주는 것으로 실제 운영에서는 -로 돌아서기 전에 교체나 마이그레이션 계획을 세우는 것이 안정성을 확보하는 것이라 볼 수 있다.
    • 실제 Fusion-io를 사용하는 다른서버의 경우 아래 그림과 같이 PBW 가 -로 돌아섰지만 문제 없이 운영되고 있다.

 

  • 금번의 문제는 Reserve space가 0%로 되면서 급격한 퍼포먼스 하락이 원인으로 보아야하며 1월에 26% 이던것이 3-4개월 만에 0%로 떨어졌다. 평시 처리하는 쿼리는 초당 10만건 정도 이다.

 

참고

  • 장애 당시 Pinpoint request 처리 시간 그래프
    • Fail수치가 증가하고 폭포 수 형태의 그래프가 그려짐

 

  • System Kernel Log
    • 시스템 로그에서 나타난  kernel:INFO: task 의 메세지를 나타내는 의미는 현재 운영하고자 하는 SQL에 대해서  120초 (2분 default) 동안 khungtaskd  쓰레드에서 D-state 상태를 감지하여  call trace 를 호출하게 되는  상황으로 예측할 수 있음.
    • 주요 원인은 시스템의 성능저하 특히 레드햇의 보고서에 의하면 디스크의 heavy I/O 로 나타나는 문제점으로 예측.

반응형

'하드웨어' 카테고리의 다른 글

[DISK RAID] Dell iDRAC Dedicated Hot Spare 잡기  (0) 2022.05.12
[DISK RAID] Dell iDRAC Rebuild  (0) 2022.05.12
[DISK RAID] Dell iDRAC CopyBack  (0) 2022.05.12
[hardware] Memory EDAC 관련 로그(1)  (0) 2021.03.18
[MegaRaid] MegaCli  (0) 2021.03.17