Hetzner liefert die MegaRAIDs in den EX-Servern mit vorkonfiguriertem wöchentlichem Konsistenzcheck aus. Der Zeitpunkt kann variieren; bei meinen beiden Servern startet er in der Nacht von Freitag auf Samstag, um 3 Uhr UTC (4 Uhr aktuelle Deutschlandzeit). Er dauert üblicherweise bis 10:00-10:30, je nach sonstiger Festplattenlast.
Der Check hinterläßt seine Spuren im Kernel-Log. Ein Blick in dieses Log kann also – unabhängig von sonstigem Monitoring – verraten, ob mit den Platten alles okay ist. Der Kernel-Log findet sich in /scratch/log/vmkernel.log auf dem ESXi-Host.
Der Ablauf sieht im Idealfall gekürzt so aus:
[bash]
2013-03-23T03:03:14.749Z cpu1:2660)<6>megasas_hotplug_work[7]: aen event code 0x0027
2013-03-23T03:03:19.057Z cpu0:2657)<6>megasas_hotplug_work[7]: aen event code 0x0042
2013-03-23T03:03:19.111Z cpu5:2650)<6>megasas_hotplug_work[7]: aen event code 0x0023
2013-03-23T03:03:19.112Z cpu5:2654)<6>megasas_hotplug_work[7]: aen event code 0x0041
2013-03-23T03:04:24.358Z cpu0:2649)<6>megasas_hotplug_work[7]: aen event code 0x0041
2013-03-23T03:05:17.458Z cpu0:2649)<6>megasas_hotplug_work[7]: aen event code 0x0041
[…Jede Menge 0x0041…]
2013-03-23T09:10:13.970Z cpu0:2646)<6>megasas_hotplug_work[7]: aen event code 0x0041
2013-03-23T09:11:50.713Z cpu0:2657)<6>megasas_hotplug_work[7]: aen event code 0x0041
2013-03-23T09:13:19.215Z cpu0:2660)<6>megasas_hotplug_work[7]: aen event code 0x0041
2013-03-23T09:13:24.769Z cpu4:2652)<6>megasas_hotplug_work[7]: aen event code 0x003a[/bash]
Der exakte Wortlaut der Meldungen kann sich, je nach ESXi-Version, unterscheiden. Ältere Versionen fügen z.B. zwischen die “aen event” Zeilen jeweils noch eine andere Zeile ein. Wichtig sind die Eventcodes. Diese bedeuten:
[bash]0x0027 – Partrol Read started
0x0042 – Consistency Check started
0x0023 – Patrol Read complete
0x0041 – Consistency Check progress
0x003a – Consistency Check done[/bash]
Zwischendurch können “Host Busy” Fehlermeldungen des Controllers erfolgen. Diese sehen oft dramatisch aus (Beispiel s.u.), haben aber erfahrungsgemäß keine negativen Folgen.
Aus aktuellem Anlaß: Sollte der Strom von 0x0041-Events im Kernel-Log plötzlich abreißen oder Ihr feststellen, daß zu sonstigen Gelegenheiten nichts mehr in den Logs landet, kann dieses Kommando helfen:
[bash]esxcli system syslog reload[/bash]
Zusätzlich könnt Ihr, falls Ihr das MegaCLI installiert habt, mit folgendem Kommando den Fortschritt eines laufenden Checks, und den Status des Arrays, abfragen:
[bash]cd /opt/lsi/MegaCLI
./MegaCli -LDCC -showprog -LALL -AALL
./MegaCli -ldinfo -l0 -aall[/bash]
Ebenso kann man mit MegaCLI den Zeitpunkt des Checks konfigurieren, mit “MegaCli -AdpCcSched”; das habe ich aber noch nicht ausprobiert und möchte daher keine verbindlichen Hinweise dazu geben.
Falls Ihr andere Statuscodes des Consistency Check im Kernel-Log vorfindet, könnt Ihr in der hier verlinkten PDF-Datei schauen. Dort steht drin, was sie zu bedeuten haben.
https://data.virtpro.eu/vmware/lsi-megaraid/A_Event_Info.pdf
[bash]2013-03-23T09:47:14.262Z cpu4:6362240)megasas: ABORT sn 651094276 cmd=0x2a retries=0 tmo=0
2013-03-23T09:47:14.262Z cpu4:6362240)<5>0 :: megasas: RESET -651094276 cmd=2a retries=0
2013-03-23T09:47:14.262Z cpu4:6362240)megaraid_sas: HBA reset handler invoked without an internal reset condition.
2013-03-23T09:47:16.733Z cpu6:2054)WARNING: LinScsi: SCSILinuxQueueCommand:1175:queuecommand failed with status = 0x1055 Host Busy vmhba1:2:0:0 (driver name: LSI Logic SAS based MegaRAID driver) – Message repeated 1218 times
2013-03-23T09:47:16.733Z cpu6:2054)ScsiDeviceIO: 2309: Cmd(0x41240071b200) 0x8a, CmdSN 0xeb from world 4836 to dev "naa.600605b00413718016b58fa5040e8e96" failed H:0x0 D:0x8 P:0x0 Possible sense data: 0x0 0x0 0x0.
2013-03-23T09:47:16.733Z cpu6:2054)ScsiDeviceIO: 2309: Cmd(0x41240079d2c0) 0x8a, CmdSN 0xf3 from world 4836 to dev "naa.600605b00413718016b58fa5040e8e96" failed H:0x0 D:0x8 P:0x0 Possible sense data: 0x0 0x0 0x0.
2013-03-23T09:47:16.733Z cpu6:2054)ScsiDeviceIO: 2309: Cmd(0x412400729e80) 0x2a, CmdSN 0xfffffadf9b655130 from world 4523 to dev "naa.600605b00413718016b58fa5040e8e96" failed H:0x0 D:0x8 P:0x0 Possible sense data: 0x0 0x0 0x0.
2013-03-23T09:47:16.733Z cpu6:2054)ScsiDeviceIO: 2309: Cmd(0x412400730100) 0x2a, CmdSN 0xfffffadf9b8d1830 from world 4523 to dev "naa.600605b00413718016b58fa5040e8e96" failed H:0x0 D:0x8 P:0x0 Possible sense data: 0x0 0x0 0x0.
2013-03-23T09:47:16.733Z cpu6:2054)ScsiDeviceIO: 2309: Cmd(0x41240078bac0) 0x2a, CmdSN 0xcd from world 4568 to dev "naa.600605b00413718016b58fa5040e8e96" failed H:0x0 D:0x8 P:0x0 Possible sense data: 0x0 0x0 0x0.
2013-03-23T09:47:16.733Z cpu6:2054)ScsiDeviceIO: 2309: Cmd(0x412400708cc0) 0x2a, CmdSN 0xc7 from world 4568 to dev "naa.600605b00413718016b58fa5040e8e96" failed H:0x0 D:0x8 P:0x0 Possible sense data: 0x0 0x0 0x0.
2013-03-23T09:47:17.297Z cpu6:6362240)<7>megaraid_sas: megasas_wait_for_outstanding: line 2131: AFTER HBA reset handler invoked without an internal reset condition: took 3 seconds. Max is 180.
2013-03-23T09:47:17.297Z cpu6:6362240)megaraid_sas: no more pending commands remain after reset handling.
2013-03-23T09:47:17.297Z cpu6:6362240)<5>megasas: reset successful
2013-03-23T09:47:17.307Z cpu7:416676)ScsiDeviceIO: 2291: Cmd(0x41240071b200) 0x8a, CmdSN 0xeb from world 4836 to dev "naa.600605b00413718016b58fa5040e8e96" failed H:0x8 D:0x0 P:0x0
2013-03-23T09:47:17.307Z cpu7:416676)ScsiDeviceIO: 2291: Cmd(0x41240079d2c0) 0x8a, CmdSN 0xf3 from world 4836 to dev "naa.600605b00413718016b58fa5040e8e96" failed H:0x8 D:0x0 P:0x0
2013-03-23T09:47:17.307Z cpu7:416676)ScsiDeviceIO: 2291: Cmd(0x41240075d980) 0x2a, CmdSN 0xca2a1e from world 2056 to dev "naa.600605b00413718016b58fa5040e8e96" failed H:0x8 D:0x0 P:0x0
2013-03-23T09:47:17.307Z cpu7:416676)ScsiDeviceIO: 2291: Cmd(0x4124007c93c0) 0x2a, CmdSN 0xca2a1f from world 2056 to dev "naa.600605b00413718016b58fa5040e8e96" failed H:0x8 D:0x0 P:0x0
2013-03-23T09:47:17.307Z cpu7:416676)ScsiDeviceIO: 2291: Cmd(0x412400775880) 0x2a, CmdSN 0xca2a22 from world 2056 to dev "naa.600605b00413718016b58fa5040e8e96" failed H:0x8 D:0x0 P:0x0
2013-03-23T09:47:17.307Z cpu4:5533)HBX: 2313: Waiting for timed out [HB state abcdef02 offset 4157440 gen 169 stampUS 8771157754484 uuid 50c7a484-d2cbdc06-4f03-5404a6a68f0e jrnl <FB 1794200> drv 14.54] on vol ‘Vega_Store’
2013-03-23T09:47:17.307Z cpu0:4059)HBX: 2313: Waiting for timed out [HB state abcdef02 offset 4157440 gen 169 stampUS 8771157754484 uuid 50c7a484-d2cbdc06-4f03-5404a6a68f0e jrnl <FB 1794200> drv 14.54] on vol ‘Vega_Store’
2013-03-23T09:47:17.398Z cpu7:2067)HBX: 231: Reclaimed heartbeat for volume 4f398b88-fbf1b358-ed03-5404a6a68f0e (Vega_Store): [Timeout] [HB state abcdef02 offset 4157440 gen 169 stampUS 8771170887971 uuid 50c7a484-d2cbdc06-4f03-5404a6a68f0e jrnl <FB 179$[/bash]