У меня есть пара серверов HP DL320e, идентично настроенных с 2 дисками WD Red 6 ТБ в массиве программного рейда 1.
# cat /proc/mdstat
Personalities : [raid1]
md126 : active raid1 sda3[2] sdb3[1]
5859876672 blocks super 1.2 [2/2] [UU]
bitmap: 0/44 pages [0KB], 65536KB chunk
md127 : active raid1 sda2[3] sdb2[2]
511936 blocks super 1.0 [2/2] [UU]
unused devices: <none>
Машины были установлены около 6 недель и обычно работают нормально, однако в нескольких случаях один диск в паре исчезает из конфигурации, система сообщает, что диск был удален:
# mdadm --detail /dev/md126
/dev/md126:
Version : 1.0
Creation Time : Thu Feb 12 12:16:13 2015
Raid Level : raid1
Array Size : 511936 (500.02 MiB 524.22 MB)
Used Dev Size : 511936 (500.02 MiB 524.22 MB)
Raid Devices : 2
Total Devices : 1
Persistence : Superblock is persistent
Update Time : Mon Apr 20 15:39:02 2015
State : clean, degraded
Active Devices : 1
Working Devices : 1
Failed Devices : 0
Spare Devices : 0
Name : localhost:boot
UUID : 60a3e4f7:793fbc3d:3f409985:5f619dea
Events : 139
Number Major Minor RaidDevice State
2 8 2 0 active sync /dev/sda2
2 0 0 2 removed
/ var / log / messages сообщает, что диск не открывается
Apr 20 14:47:00 1 smartd[983]: Device: /dev/sda [SAT], open() failed: No such device
Оба диска физически исправны и вращаются. Эти машины образуют производственную пару, поэтому я особо не экспериментировал. В первый раз, когда это произошло, я выключил сервер и перезагрузил его, отказавший диск остался неисправным, поэтому я снова выключил его, удалил диск, который выглядел нормально, снова вставил его и перезагрузил, диск выглядел нормально, а после
mdadm --manage /dev/md126 --add /dev/sda2
... и аналогичная команда для другой файловой системы, массив рейда повторно синхронизировался, и все вернулось к норме.
То же самое произошло с обоими дисками на одной машине, и сегодня другой сервер сделал то же самое с одним из своих дисков. Сегодня я выключил сервер и отсоединил шнур питания, чтобы принудительно выполнить полный холодный запуск, включая iLo, я не удалял «отказавший» диск, и когда машина подключилась, устройство было видно, и команда mdadm для добавления недостающего диска обратно сработала. как прежде.
Я больше ничего не вижу ни в журнале сообщений, ни где-либо еще. Сбой сегодня произошел, когда система перезагрузилась после того, как я вручную выполнил обновление yum и перезагрузился, предыдущий сбой произошел после перезагрузки, которая произошла по причинам, которые я не могу объяснить, когда я не был в офисе.
В состоянии сбоя массив raid работает в ухудшенном режиме, и система работает нормально, в результате я не испытываю перебоев в обслуживании, но очевидно, что это происходит.
Я не знаком с iLO, но я не вижу ничего в журналах iLO, кроме примечания о том, что питание было отключено в момент необъяснимой перезагрузки.
Я использую Centos 7, 4 Гб оперативной памяти, 4 ядра Xenon 3,1 ГГц с 2 дисками по 6 ТБ. Все обновления yum применены.
Кто-нибудь видел что-то подобное на DL320e?