Краткая информация: Dell R410 с 2 дисками по 500 ГБ в RAID1 на адаптере H700
Недавно один из дисков в массиве RAID1 на сервере вышел из строя, назовем его Диском 0. RAID-контроллер пометил его как сбой и отключил. Я заменил неисправный диск на новый (той же серии и производителя, только большего размера) и настроил новый диск как горячий резерв.
Восстановление с Drive1 началось немедленно, и через 1,5 часа я получил сообщение, что Drive 1 не работает. Сервер не отвечал (паника ядра) и требовала перезагрузки. Учитывая, что за полчаса до восстановления этой ошибки было около 40%, я подсчитал, что новый диск еще не синхронизирован, и попытался перезагрузиться только с диска 1.
Контроллер RAID немного пожаловался на отсутствие массивов RAID, но он обнаружил чужой массив RAID на Диске 1, и я импортировал его. Сервер загружен и работает (с деградированного RAID).
Вот данные SMART для дисков. Диск 0 (тот, который вышел из строя первым)
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
1 Raw_Read_Error_Rate POSR-K 200 200 051 - 1
3 Spin_Up_Time POS--K 142 142 021 - 3866
4 Start_Stop_Count -O--CK 100 100 000 - 12
5 Reallocated_Sector_Ct PO--CK 200 200 140 - 0
7 Seek_Error_Rate -OSR-K 200 200 000 - 0
9 Power_On_Hours -O--CK 086 086 000 - 10432
10 Spin_Retry_Count -O--CK 100 253 000 - 0
11 Calibration_Retry_Count -O--CK 100 253 000 - 0
12 Power_Cycle_Count -O--CK 100 100 000 - 11
192 Power-Off_Retract_Count -O--CK 200 200 000 - 10
193 Load_Cycle_Count -O--CK 200 200 000 - 1
194 Temperature_Celsius -O---K 112 106 000 - 31
196 Reallocated_Event_Count -O--CK 200 200 000 - 0
197 Current_Pending_Sector -O--CK 200 200 000 - 0
198 Offline_Uncorrectable ----CK 200 200 000 - 0
199 UDMA_CRC_Error_Count -O--CK 200 200 000 - 0
200 Multi_Zone_Error_Rate ---R-- 200 198 000 - 3
И диск 1 (диск, о котором было сообщено, что контроллер исправен, пока не была предпринята попытка восстановления)
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
1 Raw_Read_Error_Rate POSR-K 200 200 051 - 35
3 Spin_Up_Time POS--K 143 143 021 - 3841
4 Start_Stop_Count -O--CK 100 100 000 - 12
5 Reallocated_Sector_Ct PO--CK 200 200 140 - 0
7 Seek_Error_Rate -OSR-K 200 200 000 - 0
9 Power_On_Hours -O--CK 086 086 000 - 10455
10 Spin_Retry_Count -O--CK 100 253 000 - 0
11 Calibration_Retry_Count -O--CK 100 253 000 - 0
12 Power_Cycle_Count -O--CK 100 100 000 - 11
192 Power-Off_Retract_Count -O--CK 200 200 000 - 10
193 Load_Cycle_Count -O--CK 200 200 000 - 1
194 Temperature_Celsius -O---K 114 105 000 - 29
196 Reallocated_Event_Count -O--CK 200 200 000 - 0
197 Current_Pending_Sector -O--CK 200 200 000 - 3
198 Offline_Uncorrectable ----CK 100 253 000 - 0
199 UDMA_CRC_Error_Count -O--CK 200 200 000 - 0
200 Multi_Zone_Error_Rate ---R-- 100 253 000 - 0
В расширенных журналах ошибок SMART я обнаружил:
На диске 0 только одна ошибка
Error 1 [0] occurred at disk power-on lifetime: 10282 hours (428 days + 10 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER -- ST COUNT LBA_48 LH LM LL DV DC
-- -- -- == -- == == == -- -- -- -- --
10 -- 51 00 18 00 00 00 6a 24 20 40 00 Error: IDNF at LBA = 0x006a2420 = 6956064
Commands leading to the command that caused the error were:
CR FEATR COUNT LBA_48 LH LM LL DV DC Powered_Up_Time Command/Feature_Name
-- == -- == -- == == == -- -- -- -- -- --------------- --------------------
61 00 60 00 f8 00 00 00 6a 24 20 40 00 17d+20:25:18.105 WRITE FPDMA QUEUED
61 00 18 00 60 00 00 00 6a 24 00 40 00 17d+20:25:18.105 WRITE FPDMA QUEUED
61 00 80 00 58 00 00 00 6a 23 80 40 00 17d+20:25:18.105 WRITE FPDMA QUEUED
61 00 68 00 50 00 00 00 6a 23 18 40 00 17d+20:25:18.105 WRITE FPDMA QUEUED
61 00 10 00 10 00 00 00 6a 23 00 40 00 17d+20:25:18.104 WRITE FPDMA QUEUED
Но на Диске 1 883 ошибки. Я вижу только несколько последних, и все ошибки, которые я вижу, выглядят так:
Error 883 [18] occurred at disk power-on lifetime: 10454 hours (435 days + 14 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER -- ST COUNT LBA_48 LH LM LL DV DC
-- -- -- == -- == == == -- -- -- -- --
01 -- 51 00 80 00 00 39 97 19 c2 40 00 Error: AMNF at LBA = 0x399719c2 = 966203842
Commands leading to the command that caused the error were:
CR FEATR COUNT LBA_48 LH LM LL DV DC Powered_Up_Time Command/Feature_Name
-- == -- == -- == == == -- -- -- -- -- --------------- --------------------
60 00 80 00 00 00 00 39 97 19 80 40 00 1d+00:25:57.802 READ FPDMA QUEUED
2f 00 00 00 01 00 00 00 00 00 10 40 00 1d+00:25:57.779 READ LOG EXT
60 00 80 00 00 00 00 39 97 19 80 40 00 1d+00:25:55.704 READ FPDMA QUEUED
2f 00 00 00 01 00 00 00 00 00 10 40 00 1d+00:25:55.681 READ LOG EXT
60 00 80 00 00 00 00 39 97 19 80 40 00 1d+00:25:53.606 READ FPDMA QUEUED
Учитывая эти ошибки, могу ли я восстановить RAID или сделать резервную копию, выключить сервер, заменить диски новыми и восстановить его? Что делать, если я перенесу неисправный диск на новый из Linux, работающего на USB / CD?
Кроме того, если у кого-то есть больше опыта, в чем могут быть причины этих ошибок? Дерьмовый контроллер или диски? Дискам около 1 года, но для меня довольно невероятно, что оба умерли за такой короткий промежуток времени.
На самом деле, если бы оба диска были из одной партии от производителя, неудивительно, что они выходили из строя примерно в одно и то же время.
У них был одинаковый производственный процесс, среда и модели использования. Поэтому я обычно стараюсь заказывать диски одинаковой модели у разных производителей.
Я предпочитаю связаться с производителем, заменить диски на более качественные и восстановить из резервной копии.
В DD'ing тоже нет ничего плохого, но обычно мне нужно как можно скорее настроить сервис.
Еще во времена фиаско IBM Deskstars у меня вышел из строя весь комплект из 8 дисков в течение 6 недель после 4 лет использования. Я едва выбрался из этого с моими данными.