Назад | Перейти на главную страницу

Один диск в массиве Centos Software raid 1 продолжает исчезать

У меня есть пара серверов HP DL320e, идентично настроенных с 2 дисками WD Red 6 ТБ в массиве программного рейда 1.

# cat /proc/mdstat
Personalities : [raid1] 
md126 : active raid1 sda3[2] sdb3[1]
      5859876672 blocks super 1.2 [2/2] [UU]
      bitmap: 0/44 pages [0KB], 65536KB chunk

md127 : active raid1 sda2[3] sdb2[2]
      511936 blocks super 1.0 [2/2] [UU]

unused devices: <none>

Машины были установлены около 6 недель и обычно работают нормально, однако в нескольких случаях один диск в паре исчезает из конфигурации, система сообщает, что диск был удален:

# mdadm --detail /dev/md126
/dev/md126:
        Version : 1.0
  Creation Time : Thu Feb 12 12:16:13 2015
     Raid Level : raid1
     Array Size : 511936 (500.02 MiB 524.22 MB)
  Used Dev Size : 511936 (500.02 MiB 524.22 MB)
   Raid Devices : 2
  Total Devices : 1
    Persistence : Superblock is persistent

    Update Time : Mon Apr 20 15:39:02 2015
          State : clean, degraded 
 Active Devices : 1
Working Devices : 1
 Failed Devices : 0
  Spare Devices : 0

           Name : localhost:boot
           UUID : 60a3e4f7:793fbc3d:3f409985:5f619dea
         Events : 139

    Number   Major   Minor   RaidDevice State
       2       8        2        0      active sync   /dev/sda2
       2       0        0        2      removed

/ var / log / messages сообщает, что диск не открывается

Apr 20 14:47:00 1 smartd[983]: Device: /dev/sda [SAT], open() failed: No such device

Оба диска физически исправны и вращаются. Эти машины образуют производственную пару, поэтому я особо не экспериментировал. В первый раз, когда это произошло, я выключил сервер и перезагрузил его, отказавший диск остался неисправным, поэтому я снова выключил его, удалил диск, который выглядел нормально, снова вставил его и перезагрузил, диск выглядел нормально, а после

mdadm --manage /dev/md126 --add /dev/sda2

... и аналогичная команда для другой файловой системы, массив рейда повторно синхронизировался, и все вернулось к норме.

То же самое произошло с обоими дисками на одной машине, и сегодня другой сервер сделал то же самое с одним из своих дисков. Сегодня я выключил сервер и отсоединил шнур питания, чтобы принудительно выполнить полный холодный запуск, включая iLo, я не удалял «отказавший» диск, и когда машина подключилась, устройство было видно, и команда mdadm для добавления недостающего диска обратно сработала. как прежде.

Я больше ничего не вижу ни в журнале сообщений, ни где-либо еще. Сбой сегодня произошел, когда система перезагрузилась после того, как я вручную выполнил обновление yum и перезагрузился, предыдущий сбой произошел после перезагрузки, которая произошла по причинам, которые я не могу объяснить, когда я не был в офисе.

В состоянии сбоя массив raid работает в ухудшенном режиме, и система работает нормально, в результате я не испытываю перебоев в обслуживании, но очевидно, что это происходит.

Я не знаком с iLO, но я не вижу ничего в журналах iLO, кроме примечания о том, что питание было отключено в момент необъяснимой перезагрузки.

Я использую Centos 7, 4 Гб оперативной памяти, 4 ядра Xenon 3,1 ГГц с 2 дисками по 6 ТБ. Все обновления yum применены.

Кто-нибудь видел что-то подобное на DL320e?