Сервер: Ubuntu Lucid
RAID-контроллер: Adaptec 3805
8 дисков в RAID6 на оборудовании HP Proliant DL180 G5
Мой kern.log сообщает мне, что у меня ошибка sdb, как показано ниже:
[2740390.344436] sd 4:0:1:0: [sdb] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[2740390.344439] sd 4:0:1:0: [sdb] Sense Key : Hardware Error [current]
[2740390.344442] sd 4:0:1:0: [sdb] Add. Sense: Internal target failure
[2740390.344447] sd 4:0:1:0: [sdb] CDB: Read(10): 28 00 33 dd dc 00 00 00 08 00
[2740390.344454] end_request: I/O error, dev sdb, sector 870177792
[2774094.573841] sd 4:0:1:0: [sdb] Unhandled sense code
[2774094.573847] sd 4:0:1:0: [sdb] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[2774094.573851] sd 4:0:1:0: [sdb] Sense Key : Hardware Error [current]
[2774094.573856] sd 4:0:1:0: [sdb] Add. Sense: Internal target failure
[2774094.573862] sd 4:0:1:0: [sdb] CDB: Read(16): 88 00 00 00 00 01 33 dd ef e8 00 00 01 00 00 00
[2774094.573873] end_request: I/O error, dev sdb, sector 5165150184
[2774094.615437] sd 4:0:1:0: [sdb] Unhandled sense code
Команда arcconf сообщает мне, что все состояния диска в сети и неисправные полосы: Да
Как я могу определить, какой диск неисправен из массива raid6 из 8 дисков?
Изменено: 2 мая 2012 г. - добавлено следующее:
/ usr / local / sbin / arcconf getconfig 1 AL
Controllers found: 1
----------------------------------------------------------------------
Controller information
----------------------------------------------------------------------
Controller Status : Optimal
Channel description : SAS/SATA
Controller Model : Adaptec 3805
Controller Serial Number : 0C18115C3BB
Temperature : 0 C/ 32 F (Normal)
Installed memory : 128 MB
Copyback : Disabled
Background consistency check : Disabled
Automatic Failover : Enabled
Global task priority : High
Stayawake period : Disabled
Spinup limit internal drives : 0
Spinup limit external drives : 0
Defunct disk drive count : 0
Logical devices/Failed/Degraded : 2/0/0
NCQ status : Enabled
--------------------------------------------------------
Controller Version Information
--------------------------------------------------------
BIOS : 5.2-0 (17342)
Firmware : 5.2-0 (17342)
Driver : 1.1-5 (2461)
Boot Flash : 5.2-0 (17342)
--------------------------------------------------------
Controller Battery Information
--------------------------------------------------------
Status : Optimal
Over temperature : No
Capacity remaining : 99 percent
Time remaining (at current draw) : 3 days, 1 hours, 11 minutes
----------------------------------------------------------------------
Logical device information
----------------------------------------------------------------------
Logical device number 0
Logical device name : boot
RAID level : 1
Status of logical device : Optimal
Size : 476150 MB
Read-cache mode : Enabled
Write-cache mode : Enabled (write-back)
Write-cache setting : Enabled (write-back)
Partitioned : Yes
Protected by Hot-Spare : No
Bootable : Yes
Failed stripes : No
Power settings : Disabled
--------------------------------------------------------
Logical device segment information
--------------------------------------------------------
Segment 0 : Present (0,7) Z2AD1A3H
Segment 1 : Present (0,3) Z2AD1834
Logical device number 1
Logical device name : data
RAID level : 6 Reed-Solomon
Status of logical device : Optimal
Size : 2858990 MB
Stripe-unit size : 128 KB
Read-cache mode : Enabled
Write-cache mode : Enabled (write-back)
Write-cache setting : Enabled (write-back)
Partitioned : Yes
Protected by Hot-Spare : No
Bootable : No
Failed stripes : Yes
Power settings : Disabled
--------------------------------------------------------
Logical device segment information
--------------------------------------------------------
Segment 0 : Present (0,0) 6VPEFSZ0
Segment 1 : Present (0,1) 5VPA5934
Segment 2 : Present (0,2) 5VPA7132
Segment 3 : Present (0,4) 5VPAJ8EJ
Segment 4 : Present (0,5) 5VPA6NAZ
Segment 5 : Present (0,6) 5VPAJM8Q
----------------------------------------------------------------------
Physical Device information
----------------------------------------------------------------------
Device #0
Device is a Hard drive
State : Online
Supported : Yes
Transfer Speed : SATA 3.0 Gb/s
Reported Channel,Device(T:L) : 0,0(0:0)
Reported Location : Connector 0, Device 0
Vendor : ST375052
Model : 5AS
Firmware : JC4B
Serial number : 6VPEFSZ0
Size : 715404 MB
Write Cache : Enabled (write-back)
FRU : None
S.M.A.R.T. : No
S.M.A.R.T. warnings : 0
NCQ status : Enabled
Device #1
Device is a Hard drive
State : Online
Supported : Yes
Transfer Speed : SATA 3.0 Gb/s
Reported Channel,Device(T:L) : 0,1(1:0)
Reported Location : Connector 0, Device 1
Vendor : ST375052
Model : 5AS
Firmware : JC4B
Serial number : 5VPA5934
Size : 715404 MB
Write Cache : Enabled (write-back)
FRU : None
S.M.A.R.T. : No
S.M.A.R.T. warnings : 0
NCQ status : Enabled
Device #2
Device is a Hard drive
State : Online
Supported : Yes
Transfer Speed : SATA 3.0 Gb/s
Reported Channel,Device(T:L) : 0,2(2:0)
Reported Location : Connector 0, Device 2
Vendor : ST375052
Model : 5AS
Firmware : JC4B
Serial number : 5VPA7132
Size : 715404 MB
Write Cache : Enabled (write-back)
FRU : None
S.M.A.R.T. : No
S.M.A.R.T. warnings : 0
NCQ status : Enabled
Device #3
Device is a Hard drive
State : Online
Supported : Yes
Transfer Speed : SATA 3.0 Gb/s
Reported Channel,Device(T:L) : 0,3(3:0)
Reported Location : Connector 0, Device 3
Vendor : ST500DM0
Model : 02-1BD142
Firmware : KC44
Serial number : Z2AD1834
Size : 476940 MB
Write Cache : Enabled (write-back)
FRU : None
S.M.A.R.T. : No
S.M.A.R.T. warnings : 0
NCQ status : Enabled
Device #4
Device is a Hard drive
State : Online
Supported : Yes
Transfer Speed : SATA 3.0 Gb/s
Reported Channel,Device(T:L) : 0,4(4:0)
Reported Location : Connector 1, Device 0
Vendor : ST375052
Model : 5AS
Firmware : JC4B
Serial number : 5VPAJ8EJ
Size : 715404 MB
Write Cache : Enabled (write-back)
FRU : None
S.M.A.R.T. : No
S.M.A.R.T. warnings : 0
NCQ status : Enabled
Device #5
Device is a Hard drive
State : Online
Supported : Yes
Transfer Speed : SATA 3.0 Gb/s
Reported Channel,Device(T:L) : 0,5(5:0)
Reported Location : Connector 1, Device 1
Vendor : ST375052
Model : 5AS
Firmware : JC4B
Serial number : 5VPA6NAZ
Size : 715404 MB
Write Cache : Enabled (write-back)
FRU : None
S.M.A.R.T. : No
S.M.A.R.T. warnings : 0
NCQ status : Enabled
Device #6
Device is a Hard drive
State : Online
Supported : Yes
Transfer Speed : SATA 3.0 Gb/s
Reported Channel,Device(T:L) : 0,6(6:0)
Reported Location : Connector 1, Device 2
Vendor : ST375052
Model : 5AS
Firmware : JC4B
Serial number : 5VPAJM8Q
Size : 715404 MB
Write Cache : Enabled (write-back)
FRU : None
S.M.A.R.T. : No
S.M.A.R.T. warnings : 0
NCQ status : Enabled
Device #7
Device is a Hard drive
State : Online
Supported : Yes
Transfer Speed : SATA 3.0 Gb/s
Reported Channel,Device(T:L) : 0,7(7:0)
Reported Location : Connector 1, Device 3
Vendor : ST500DM0
Model : 02-1BD142
Firmware : KC44
Serial number : Z2AD1A3H
Size : 476940 MB
Write Cache : Enabled (write-back)
FRU : None
S.M.A.R.T. : No
S.M.A.R.T. warnings : 0
NCQ status : Enabled
Command completed successfully.
Обновление с добавленной информацией о разделе ниже:
**fdisk -l**
Disk /dev/sda: 499.3 GB, 499289948160 bytes
255 heads, 63 sectors/track, 60701 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x0002ab26
Device Boot Start End Blocks Id System
/dev/sda1 * 1 59952 481562624 83 Linux
/dev/sda2 59953 60702 6022145 5 Extended
/dev/sda5 59953 60702 6022144 82 Linux swap / Solaris
WARNING: GPT (GUID Partition Table) detected on '/dev/sdb'! The util fdisk doesn't support GPT. Use GNU Parted.
Disk /dev/sdb: 2997.9 GB, 2997878784000 bytes
255 heads, 63 sectors/track, 364471 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x00000000
Device Boot Start End Blocks Id System
/dev/sdb1 1 267350 2147483647+ ee GPT
**df -h**
Filesystem Size Used Avail Use% Mounted on
/dev/sda1 453G 112G 319G 26% /
none 1000M 224K 1000M 1% /dev
none 1005M 0 1005M 0% /dev/shm
none 1005M 664K 1004M 1% /var/run
none 1005M 4.0K 1005M 1% /var/lock
none 1005M 0 1005M 0% /lib/init/rw
/dev/sdb1 2.7T 1.5T 1.1T 58% /media/raid1
/dev/sdb1 2.7T 1.5T 1.1T 58% /media/usbhd-sdb1
/dev/sda1 453G 112G 319G 26% /media/usbhd-sda1
**fstab**
# /etc/fstab: static file system information.
#
# Use 'blkid -o value -s UUID' to print the universally unique identifier
# for a device; this may be used with UUID= as a more robust way to name
# devices that works even if disks are added and removed. See fstab(5).
#
# <file system> <mount point> <type> <options> <dump> <pass>
proc /proc proc nodev,noexec,nosuid 0 0
# / was on /dev/sda1 during installation
UUID=12dd3c31-6dba-4c26-ba81-88a76510bffd / ext4 errors=remount-ro 0 1
# swap was on /dev/sda5 during installation
UUID=81618042-ec4e-45e9-947f-9198d29651d3 none swap sw 0 0
UUID=a7832728-5bf9-45c4-8a29-2824b4f2c250 /media/raid1 ext4 errors=remount-ro,noatime 0 1
Если я не ошибаюсь, эти ошибки говорят вам, что у вас есть ошибки, которые не были исправлены RAID-контроллером. Контроллер RAID должен скрывать от вас подобные ошибки. Я не думаю, что у вас просто отказ диска. Я думаю, у вас происходит что-то более серьезное.
Предполагая, что том «boot» в вашей raid-setup распознается как sda, а «data» как sdb, ваша система сообщает вам следующее:
[2740390.344436] sd 4: 0: 1: 0: [sdb] Результат: hostbyte = DID_OK driverbyte = DRIVER_SENSE
Подсистема scsi без ошибок выдала команду низкоуровневому драйверу (для вашей карты adaptec), и карта ответила ошибкой (DRIVE_SENSE установлен).
[2740390.344439] sd 4: 0: 1: 0: [sdb] Sense Key: аппаратная ошибка [текущий]
Это тип ошибки (см. информация о драйвере scsi).
[2740390.344442] SD 4: 0: 1: 0: [SDB] Доп. Смысл: внутренняя ошибка цели
Это дополнительная информация, которую сообщает драйвер, тогда как эта информация, насколько мне известно, означает «нет конкретной информации» / «не знаю, что пошло не так».
[2740390.344454] end_request: ошибка ввода-вывода, dev sdb, сектор 870177792
Ошибка достигла блочного слоя.
Как указано в другом ответе: это не сбой одного диска, это сбой всего рейда. Вам следует внимательно проверить свои данные и подумать о замене рейдовой подсистемы или хотя бы контроллера.
И вы всегда должны (!) Включать «Фоновую проверку согласованности» / «Пассивное сканирование» / «Проверку» на ваших контроллерах рейда, чтобы найти скрытые повреждения, которые в противном случае могут убить ваш рейд в случае перестройки.
Вы видели ошибки файловой системы? Разделен / смонтирован / dev / sdb?
Это прозвучит забавно, но смотрели ли вы на передней панели сервера, чтобы увидеть, на каком диске загорелся индикатор ошибки? (при условии, что на дисках есть светодиоды)
Также вы можете установить программу управления хранилищем: http://www.adaptec.com/en-us/downloads/storage_manager/sm/productid=sas-3805&dn=adaptec+raid+3805.html
Возможно, вы можете получить информацию через smartctl (CLI) или Adaptec CLI (как указано выше).
Если вы можете перезагрузить сервер, сделайте это с DVD SmartStart. Если я помню, вы можете получить доступ к ACU оттуда, чтобы иметь графическое представление томов RAID.