Назад | Перейти на главную страницу

HP Smart Array P400: как восстановить вышедший из строя логический диск?

У меня есть сервер HP с контроллером SmartArray P400 (включая 256 МБ кэш-памяти / резервное копирование батареи) с логическим диском с замененным отказавшим физическим диском, который не восстанавливается.

Вот как это выглядело, когда я обнаружил ошибку:

~# /usr/sbin/hpacucli ctrl slot=0 show config
Smart Array P400 in Slot 0 (Embedded) (sn: XXXX)

  array A (SATA, Unused Space: 0 MB)
    logicaldrive 1 (698.6 GB, RAID 1, OK)
      physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SATA, 750 GB, OK)
      physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SATA, 750 GB, OK)

  array B (SATA, Unused Space: 0 MB)
    logicaldrive 2 (2.7 TB, RAID 5, Failed)
      physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SATA, 750 GB, OK)
      physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SATA, 750 GB, OK)
      physicaldrive 2I:1:5 (port 2I:box 1:bay 5, SATA, 750 GB, OK)
      physicaldrive 2I:1:6 (port 2I:box 1:bay 6, SATA, 750 GB, Failed)
      physicaldrive 2I:1:7 (port 2I:box 1:bay 7, SATA, 750 GB, OK)

  unassigned
      physicaldrive 2I:1:8 (port 2I:box 1:bay 8, SATA, 750 GB, OK)
~# 

Я думал, что у меня есть диск 2I: 1: 8, настроенный как резервный для массива A и массива B, но, похоже, это не так :-(. Я заметил проблему из-за ошибок ввода-вывода на хосте, даже если только 1 физический диск RAID5 вышел из строя.

Кто-нибудь знает, почему это могло произойти? Логический диск должен перейти в режим «Degraded», но по-прежнему быть полностью доступным из ОС хоста !?

Сначала я попытался добавить неназначенный диск 2I: 1: 8 в качестве запасного к логическому диску 2, но это не удалось:

~# /usr/sbin/hpacucli ctrl slot=0 array B add spares=2I:1:8
    Error: This operation is not supported with the current configuration.
    Use the "show" command on devices to show additional details 
    about the configuration.
~#  

Интересно, что добавить неназначенный диск в первый массив можно без проблем. Я подумал, может быть, контроллер переведет массив в состояние «отказал» из-за отсутствия запасного и защищает отказавшие массивы от модификации. Итак, я попытался снова включить логический диск (чтобы потом добавить запасной):

~# /usr/sbin/hpacucli ctrl slot=0 ld 2 modify reenable
    Warning: Any previously existing data on the logical drive may not 
    be valid or recoverable. Continue? (y/n) y

    Error: This operation is not supported with the current configuration.
    Use the "show" command on devices to show additional details
    about the configuration.
~# 

Но, как видите, повторно включить логический диск было невозможно.

Теперь я заменил неисправный диск, заменив его неназначенным диском. Статус теперь выглядит так:

~# /usr/sbin/hpacucli ctrl slot=0 show config
Smart Array P400 in Slot 0 (Embedded) (sn: XXXX)

  array A (SATA, Unused Space: 0 MB)
    logicaldrive 1 (698.6 GB, RAID 1, OK)
      physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SATA, 750 GB, OK)
      physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SATA, 750 GB, OK)

  array B (SATA, Unused Space: 0 MB)
    logicaldrive 2 (2.7 TB, RAID 5, Failed)
      physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SATA, 750 GB, OK)
      physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SATA, 750 GB, OK)
      physicaldrive 2I:1:5 (port 2I:box 1:bay 5, SATA, 750 GB, OK)
      physicaldrive 2I:1:6 (port 2I:box 1:bay 6, SATA, 750 GB, OK)
      physicaldrive 2I:1:7 (port 2I:box 1:bay 7, SATA, 750 GB, OK)
~# 

Логический диск по-прежнему недоступен. Почему не восстанавливается?

Что я могу сделать?

К вашему сведению, это конфигурация моего контроллера:

~# /usr/sbin/hpacucli ctrl slot=0 show
 Smart Array P400 in Slot 0 (Embedded)
  Bus Interface: PCI
  Slot: 0
  Serial Number: XXXX
  Cache Serial Number: XXXX
  RAID 6 (ADG) Status: Enabled
  Controller Status: OK
  Chassis Slot:
  Hardware Revision: Rev E
  Firmware Version: 5.22
  Rebuild Priority: Medium
  Expand Priority: Medium
  Surface Scan Delay: 15 secs
  Surface Analysis Inconsistency Notification: Disabled
  Raid1 Write Buffering: Disabled
  Post Prompt Timeout: 0 secs
  Cache Board Present: True
  Cache Status: OK
  Accelerator Ratio: 25% Read / 75% Write
  Drive Write Cache: Disabled
  Total Cache Size: 256 MB
  No-Battery Write Cache: Disabled
  Cache Backup Power Source: Batteries
  Battery/Capacitor Count: 1
  Battery/Capacitor Status: OK
  SATA NCQ Supported: True
~# 

Заранее благодарим за помощь.

Ответ не из приятных. Существует высокая вероятность того, что ваш массив находится в состоянии "ожидания восстановления", когда есть еще один провал диск в наборе массива RAID5, который препятствует завершению восстановления. Вот почему в наши дни вам следует избегать RAID5. Не помогает то, что это диски SATA ... Вероятность проблем еще выше. Попробуйте выключить систему (дать дискам остановиться) и снова включить. Следуйте инструкциям на экране массива BIOS и выберите F2 возможность «повторно включить все логические диски». Это может запустить процесс восстановления.

В противном случае это пересборка / восстановление с новыми дисками.

Вы должны загрузиться в ACU и посмотреть, что именно происходит. если весь логический диск недоступен, вы можете снова включить его там.