하드웨어 (8) 썸네일형 리스트형 [hardware] Memory EDAC 관련 로그(2) 로그 확인 커널로그 MC1(Memoty Controller)CE error "CPU_SrcID#0_Ha#0_Chan#2_DIMM#0" 이 메모리 에서 발생 에러 관련 page 주소는 "2ab71f000" [57034.062252] mce: [Hardware Error]: Machine check events logged [57034.062274] EDAC sbridge MC1: HANDLING MCE MEMORY ERROR [57034.062277] EDAC sbridge MC1: CPU 0: Machine Check Event: 0 Bank 11: cc002002000800c2 [57034.062279] EDAC sbridge MC1: TSC 0 [57034.062281] EDAC sbridge MC1.. [Megaraid] Firmware state: Failed 로 인한 Disk 교체 및 Rebuild 현재 디스크 구성 OS 영역 : 280G*2 RAID 1 DATA 영역 : 1.8T*5 RAID 6 디스크 상태 요약 정보 MegaCli 설치 및 사용 방법은 https://ploz.tistory.com/entry/MegaCli 참조 OS영역 : 물리 Disk Slot 0번이 state Failed 상태 LD state : Degraded DATA영역 : 5개중 1개가 없어짐.(Slot 6) LD state : Partially Degraded > MegaCli64 -ShowSummary -aALL System ... Hardware Controller ProductName : Intel(R) Integrated RAID Module RMS25CB080(Bus 0, Dev 0) SAS Address : .. [DISK RAID] Dell iDRAC Dedicated Hot Spare 잡기 상황 CopyBack 없이 Dedicated Hot Spare 잡기 DISK 3,4,6,7 RAID 1+0 구성 Storage 설정에서 copyback “off” DISK 5 추가 및 Hot Spare 설정 설정 진행 copyback 설정 변경 새로운 DISK가 추가 되면 CopyBack 이 일어나 시스템 상의 성능 저하가 발생 할 수 있어 Off로 설정 후 진행 신규 디스크 추가 (DISK 5) LifeCycle Log Foreign 설정 삭제 Configuration - Storage Configuration - Controller Configuration에 “ clear foreign config~~~ “ 와 같은 버튼이 생성 되면 눌러 foreign 설정을 해제 한다. 일정 시간이 지나야 완료됨 .. [DISK RAID] Dell iDRAC Rebuild 상황 DISK 3,4,5,6 RAID 1+0 , Dedicated Hot Spare DISK 7 으로 구성 (VD1) DISK 5번 Fault 발생 DISK 7번 Rebuild 진행 Rebuild 완료 DISK 3,4,6,7 RAID 1+0 구성에 No Spare Rebuild 진행 LifeCycle Log DISK 5번이 제거 되었고 Virtual Disk 는 Degraded 됨 DISK 7번이 Rebuild를 시작함 Rebuild rate 설정 Rebuild 중에는 Rebuild Rate 수치에 따라 시스템의 성능 저하가 일어남 Default 30% 로 30% 정도의 우선순위를 가지고 리소스를 사용하게 됨. [DISK RAID] Dell iDRAC CopyBack 상황 DISK 0,1,2,3 4개의 디스크가 RAID 1+0으로 구성되어져 있고 1개의 Spare DISK 5가 있는 경우 DISK 0번이 fault가 발생되어 Spare Disk 5가 투입되고 rebulind를 진행 이후 DISK 0번에 새로운 디스크를 마운트하면 Spare Disk 5 → 새로운 DISK 0번으로 데이터를 옮기는 CopyBack 이 발생 하게 됨 CopyBack이 완료되면 다시 Disk 5는 Spare가 됨 CopyBack 과정에서 시스템의 성능 저하가 발생 할 수 있음. CopyBack 진행 Dell PE R340의 iDRAC에서 진행되었음. CopyBack 진행 상황(Disk 0) CopyBack 완료 후 Spare Disk 상태 CopyBack 설정 단순히 Fault Disk S.. [Fusion-IO] 수명 문제 증상 SQL서버에 사용중 트래픽이나 Query/s 의 수치는 평시와 같음 Lock Wait Time이 급격히 증가 Slow Queries/s 최대 30초 이상으로 급격이 증가 DISK IO Utilization 급격히 증가 Fusion-io 상태 Fusion-io 의 수명 끝나 하기와 같은 상태 정보를 보임 fio-status로 출력되는 지표 정보 PBW(PetaBytes Written) : -19.96% (수명이 남았다면 +) Reserve space status : Reservers 0.00% PBW가 -로 돌아섰다고 해서 수명이 완전히 끝난것은 아니다. 다만 교체를 준비해야 할 시기임을 수치로 보여주는 것으로 실제 운영에서는 -로 돌아서기 전에 교체나 마이그레이션 계획을 세우는 것이 안정성을 확보하.. [hardware] Memory EDAC 관련 로그(1) 1. 2021.02.21 03:44:01 ~ 02.22 08:55:11(이후도 지속 발생) ## mcelog에 남은 로그는 없으며 커널로그에 찍힌 로그 [root@localhost]# cat /var/log/messages | grep -v "snmp\|ACPI" Feb 21 03:44:01 localhost rsyslogd: [origin software="rsyslogd" swVersion="5.8.10" x-pid="1446" x-info="http://www.rsyslog.com"] rsyslogd was HUPed Feb 21 04:48:52 localhost kernel: sbridge: HANDLING MCE MEMORY ERROR Feb 21 04:48:52 localhost kernel:.. [MegaRaid] MegaCli raid controller가 MegaRAID인 경우 MegaCli 사용 Raid Controller 확인 lshw 설치 : yum install lshw ## raid controller 확인 > lshw -c storage *-storage description: RAID bus controller product: MegaRAID SAS-3 3108 [Invader] vendor: LSI Logic / Symbios Logic ... MegaCli 설치 ## MegaCli 다운로드 ## 여기서 받아도 됨: http://mirror.nforce.com/pub/software/raidtools/Megaraid/8-07-14_MegaCLI.zip [root@megaCli]# wget https://docs.. 이전 1 다음