Adaptec-Raid-Controller S.M.A.R.T.-Healthstatus monitoren

4. April 2010 | Von | Kategorie: Admin | Monitoring | Availability

Den Healthstatus von Platten zu monitoren sollte zum Grundschatz eines jeden Administrators gehören. Jedoch ist dies nicht bei jedem Hardware-Controller einfach einzurichten.

Im folgenden Beispiel habe ich einen Adaptec-Raid-Controller, welcher mit dem aacraid-Kernelmodul mit einem Linuxsystem zusammenarbeitet. Die S.M.A.R.T.-Informationen erhalten wir jedoch nicht direkt über den Controller. Lediglich eine Zusammenfassung des Status wird ausgegeben.

# /usr/StorMan/arcconf GETCONFIG 1 AL
Controllers found: 1
----------------------------------------------------------------------
Controller information
----------------------------------------------------------------------
 Controller Status                        : Optimal
 Channel description                      : SAS/SATA
 Controller Model                         : IBM ServeRAID 8k
 Controller Serial Number                 : 1C037F6
 Physical Slot                            : 0
 Installed memory                         : 256 MB
 Copyback                                 : Disabled
 Background consistency check             : Enabled
 Automatic Failover                       : Enabled
 Defunct disk drive count                 : 0
 Logical devices/Failed/Degraded          : 1/0/0
 --------------------------------------------------------
 Controller Version Information
 --------------------------------------------------------
 BIOS                                     : 5.2-0 (11835)
 Firmware                                 : 5.2-0 (11835)
 Driver                                   : 1.1-5 (2461)
 Boot Flash                               : 5.1-0 (11835)
 --------------------------------------------------------
 Controller Battery Information
 --------------------------------------------------------
 Status                                   : Optimal
 Over temperature                         : No
 Capacity remaining                       : 100 percent
 Time remaining (at current draw)         : 5 days, 6 hours, 3 minutes

----------------------------------------------------------------------
Logical device information
----------------------------------------------------------------------
Logical device number 0
 Logical device name                      : OS01
 RAID level                               : 1
 Status of logical device                 : Optimal
 Size                                     : 69890 MB
 Read-cache mode                          : Enabled
 Write-cache mode                         : Enabled (write-back)
 Write-cache setting                      : Enabled (write-back) when protected by battery
 Partitioned                              : Yes
 Protected by Hot-Spare                   : No
 Bootable                                 : Yes
 Failed stripes                           : No
 --------------------------------------------------------
 Logical device segment information
 --------------------------------------------------------
 Segment 0                                : Present (0,0) JCX543UK
 Segment 1                                : Present (0,1) JCX5KT3K

----------------------------------------------------------------------
Physical Device information
----------------------------------------------------------------------
 Device #0
 Device is a Hard drive
 State                              : Online
 Supported                          : Yes
 Transfer Speed                     : SAS 3.0 Gb/s
 Reported Channel,Device            : 0,0
 Reported Location                  : Enclosure 0, Slot 0
 Reported ESD                       : 2,0
 Vendor                             : IBM-ESXS
 Model                              : VPA073C3-ETS10 N
 Firmware                           : A540
 Serial number                      : JCX543UK
 World-wide name                    : 5000CCA007DE8457
 Size                               : 70006 MB
 Write Cache                        : Enabled (write-back)
 FRU                                : 39R7348
 S.M.A.R.T.                         : No
 Device #1
 Device is a Hard drive
 State                              : Online
 Supported                          : Yes
 Transfer Speed                     : SAS 3.0 Gb/s
 Reported Channel,Device            : 0,1
 Reported Location                  : Enclosure 0, Slot 1
 Reported ESD                       : 2,0
 Vendor                             : IBM-ESXS
 Model                              : VPA073C3-ETS10 N
 Firmware                           : A540
 Serial number                      : JCX5KT3K
 World-wide name                    : 5000CCA007DEB799
 Size                               : 70006 MB
 Write Cache                        : Enabled (write-back)
 FRU                                : 39R7348
 S.M.A.R.T.                         : No
 Device #2
 Device is an Enclosure services device
 Reported Channel,Device            : 2,0
 Enclosure ID                       : 0
 Type                               : SES2
 Vendor                             : IBM-ESXS
 Model                              : VSC7160
 Firmware                           : 1.06
 Status of Enclosure services device
 Temperature                     : Normal

Command completed successfully.

Durch den StorageManager von Adaptec erhalten wir also nur einen sehr allgemeinen Überblick über den Status des logischen (/dev/sda) und der entsprechenden physikalischen Geräten.

Ein direkter Einsatz der Smartmontools auf das logische Geräte ist nicht möglich.

# smartctl -a -d scsi /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

Device: ServeRA  OS01             Version: V1.0
scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

Nun was ich im folgenden gemacht habe ist zunächst geschaut, ob die Geräte überhaupt durch das Betriebssystem direkt angesprochen werden können. Diese Informationen liegen unter /proc/scsi/scsi:

# cat /proc/scsi/scsi
Attached devices:
Host: scsi0 Channel: 00 Id: 00 Lun: 00
Vendor: ServeRA  Model: OS01             Rev: V1.0
Type:   Direct-Access                    ANSI  SCSI revision: 02
Host: scsi0 Channel: 01 Id: 00 Lun: 00
Vendor: IBM-ESXS Model: VPA073C3-ETS10 N Rev: A540
Type:   Direct-Access                    ANSI  SCSI revision: 05
Host: scsi0 Channel: 01 Id: 01 Lun: 00
Vendor: IBM-ESXS Model: VPA073C3-ETS10 N Rev: A540
Type:   Direct-Access                    ANSI  SCSI revision: 05
Host: scsi0 Channel: 03 Id: 00 Lun: 00
Vendor: IBM-ESXS Model: VSC7160          Rev: 1.06
Type:   Enclosure                        ANSI  SCSI revision: 03

Es gibt für diese Platten aber keinen Node unterhalb von /dev, den ich direkt ansprechen kann. Damit ich die physikalischen Geräte aber einzeln monitoren kann, muss zunächst das Kernelmodul sg geladen werden.

# modinfo sg
filename:       /lib/modules/2.6.26-2-amd64/kernel/drivers/scsi/sg.ko
alias:          char-major-21-*
version:        3.5.34
license:        GPL
description:    SCSI generic (sg) driver
author:         Douglas Gilbert
srcversion:     657D0F8607F65C481E0B2E3
depends:        scsi_mod
vermagic:       2.6.26-2-amd64 SMP mod_unload modversions
parm:           scatter_elem_sz:scatter gather element size (default: max(SG_SCATTER_SZ, PAGE_SIZE)) (int)
parm:           def_reserved_size:size of buffer reserved for each fd (int)
parm:           allow_dio:allow direct I/O (default: 0 (disallow)) (int)
# modprobe sg

Nach dem Laden des Moduls stehen nun für alle SCSI-Geräte entsprechende Nodes zur Verfügung. Diese können dann mit Hilfe der Smartmontools abgefragt werden. In meinem Falle wurde 4 Nodes erstellt, wobei nur die beiden Node für die physikalischen Platten auch S.M.A.R.T.-Informationen zur Verfügung stellen können.

# smartctl -a -d scsi /dev/sg1
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

Device: IBM-ESXS VPA073C3-ETS10 N Version: A540
Serial number:         JCX543UK
Device type: disk
Transport protocol: SAS
Local Time is: Sun Apr  4 00:24:19 2010 CEST
Device supports SMART and is Enabled
Temperature Warning Enabled
SMART Health Status: OK

Current Drive Temperature:     24 C
Drive Trip Temperature:        65 C
Manufactured in week 34 of year 2007
Recommended maximum start stop count:  50000 times
Current start stop count:      14 times
Elements in grown defect list: 0
Vendor (Seagate) cache information
 Blocks sent to initiator = 252243060195328

Error counter log:
 Errors Corrected by           Total   Correction     Gigabytes    Total
 ECC          rereads/    errors   algorithm      processed    uncorrected
 fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:       1149      200         0      1149       1188         47.151           0
write:    128411        0         0    128411          0        629.943           0
verify:    35547     6989         0     35547          0       1145.802           0

Non-medium error count:        1
No self-tests have been logged
Long (extended) Self Test duration: 3086 seconds [51.4 minutes]

Neben der Temperatur und dem Health-Status können nun auch die detailierten Fehlerinformationen für die Platten ausgewertet werden.

Das Einbinden ins proaktive Monitoring sollten dann die vorhandenen Plugins von monitoringexchange.de erledigen.

Post to Twitter Post to Yahoo Buzz Post to Delicious Post to Digg Post to Facebook Post to Ping.fm Post to Reddit

Tags: | | | | |

Schreibe einen Kommentar

Fühle dich ermuntert einen Kommentar, Anmerkungen, Hinweise oder deine Ideen zum Thema zu hinterlassen. Wir freuen uns über deine Rückmeldung.