Назад | Перейти на главную страницу

Сбой восстановления RAID1 из-за ошибок диска

Краткая информация: Dell R410 с 2 дисками по 500 ГБ в RAID1 на адаптере H700

Недавно один из дисков в массиве RAID1 на сервере вышел из строя, назовем его Диском 0. RAID-контроллер пометил его как сбой и отключил. Я заменил неисправный диск на новый (той же серии и производителя, только большего размера) и настроил новый диск как горячий резерв.

Восстановление с Drive1 началось немедленно, и через 1,5 часа я получил сообщение, что Drive 1 не работает. Сервер не отвечал (паника ядра) и требовала перезагрузки. Учитывая, что за полчаса до восстановления этой ошибки было около 40%, я подсчитал, что новый диск еще не синхронизирован, и попытался перезагрузиться только с диска 1.

Контроллер RAID немного пожаловался на отсутствие массивов RAID, но он обнаружил чужой массив RAID на Диске 1, и я импортировал его. Сервер загружен и работает (с деградированного RAID).

Вот данные SMART для дисков. Диск 0 (тот, который вышел из строя первым)

ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR-K   200   200   051    -    1
  3 Spin_Up_Time            POS--K   142   142   021    -    3866
  4 Start_Stop_Count        -O--CK   100   100   000    -    12
  5 Reallocated_Sector_Ct   PO--CK   200   200   140    -    0
  7 Seek_Error_Rate         -OSR-K   200   200   000    -    0
  9 Power_On_Hours          -O--CK   086   086   000    -    10432
 10 Spin_Retry_Count        -O--CK   100   253   000    -    0
 11 Calibration_Retry_Count -O--CK   100   253   000    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    11
192 Power-Off_Retract_Count -O--CK   200   200   000    -    10
193 Load_Cycle_Count        -O--CK   200   200   000    -    1
194 Temperature_Celsius     -O---K   112   106   000    -    31
196 Reallocated_Event_Count -O--CK   200   200   000    -    0
197 Current_Pending_Sector  -O--CK   200   200   000    -    0
198 Offline_Uncorrectable   ----CK   200   200   000    -    0
199 UDMA_CRC_Error_Count    -O--CK   200   200   000    -    0
200 Multi_Zone_Error_Rate   ---R--   200   198   000    -    3

И диск 1 (диск, о котором было сообщено, что контроллер исправен, пока не была предпринята попытка восстановления)

ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR-K   200   200   051    -    35
  3 Spin_Up_Time            POS--K   143   143   021    -    3841
  4 Start_Stop_Count        -O--CK   100   100   000    -    12
  5 Reallocated_Sector_Ct   PO--CK   200   200   140    -    0
  7 Seek_Error_Rate         -OSR-K   200   200   000    -    0
  9 Power_On_Hours          -O--CK   086   086   000    -    10455
 10 Spin_Retry_Count        -O--CK   100   253   000    -    0
 11 Calibration_Retry_Count -O--CK   100   253   000    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    11
192 Power-Off_Retract_Count -O--CK   200   200   000    -    10
193 Load_Cycle_Count        -O--CK   200   200   000    -    1
194 Temperature_Celsius     -O---K   114   105   000    -    29
196 Reallocated_Event_Count -O--CK   200   200   000    -    0
197 Current_Pending_Sector  -O--CK   200   200   000    -    3
198 Offline_Uncorrectable   ----CK   100   253   000    -    0
199 UDMA_CRC_Error_Count    -O--CK   200   200   000    -    0
200 Multi_Zone_Error_Rate   ---R--   100   253   000    -    0

В расширенных журналах ошибок SMART я обнаружил:

На диске 0 только одна ошибка

Error 1 [0] occurred at disk power-on lifetime: 10282 hours (428 days + 10 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  10 -- 51 00 18 00 00 00 6a 24 20 40 00  Error: IDNF at LBA = 0x006a2420 = 6956064

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  61 00 60 00 f8 00 00 00 6a 24 20 40 00 17d+20:25:18.105  WRITE FPDMA QUEUED
  61 00 18 00 60 00 00 00 6a 24 00 40 00 17d+20:25:18.105  WRITE FPDMA QUEUED
  61 00 80 00 58 00 00 00 6a 23 80 40 00 17d+20:25:18.105  WRITE FPDMA QUEUED
  61 00 68 00 50 00 00 00 6a 23 18 40 00 17d+20:25:18.105  WRITE FPDMA QUEUED
  61 00 10 00 10 00 00 00 6a 23 00 40 00 17d+20:25:18.104  WRITE FPDMA QUEUED

Но на Диске 1 883 ошибки. Я вижу только несколько последних, и все ошибки, которые я вижу, выглядят так:

Error 883 [18] occurred at disk power-on lifetime: 10454 hours (435 days + 14 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  01 -- 51 00 80 00 00 39 97 19 c2 40 00  Error: AMNF at LBA = 0x399719c2 = 966203842

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  60 00 80 00 00 00 00 39 97 19 80 40 00  1d+00:25:57.802  READ FPDMA QUEUED
  2f 00 00 00 01 00 00 00 00 00 10 40 00  1d+00:25:57.779  READ LOG EXT
  60 00 80 00 00 00 00 39 97 19 80 40 00  1d+00:25:55.704  READ FPDMA QUEUED
  2f 00 00 00 01 00 00 00 00 00 10 40 00  1d+00:25:55.681  READ LOG EXT
  60 00 80 00 00 00 00 39 97 19 80 40 00  1d+00:25:53.606  READ FPDMA QUEUED

Учитывая эти ошибки, могу ли я восстановить RAID или сделать резервную копию, выключить сервер, заменить диски новыми и восстановить его? Что делать, если я перенесу неисправный диск на новый из Linux, работающего на USB / CD?

Кроме того, если у кого-то есть больше опыта, в чем могут быть причины этих ошибок? Дерьмовый контроллер или диски? Дискам около 1 года, но для меня довольно невероятно, что оба умерли за такой короткий промежуток времени.

На самом деле, если бы оба диска были из одной партии от производителя, неудивительно, что они выходили из строя примерно в одно и то же время.

У них был одинаковый производственный процесс, среда и модели использования. Поэтому я обычно стараюсь заказывать диски одинаковой модели у разных производителей.

Я предпочитаю связаться с производителем, заменить диски на более качественные и восстановить из резервной копии.

В DD'ing тоже нет ничего плохого, но обычно мне нужно как можно скорее настроить сервис.

Еще во времена фиаско IBM Deskstars у меня вышел из строя весь комплект из 8 дисков в течение 6 недель после 4 лет использования. Я едва выбрался из этого с моими данными.