У меня есть диск - часть зеркала RAID 1 - с двумя плохими блоками. Adaptec Storage Manger отправил мне электронное письмо, когда обнаружил блоки. Он показывает 4 средние ошибки для этого диска, но состояние все еще «оптимальное».
Я впервые использую RAID-контроллеры Adaptec. Я не знаю, является ли случайная неисправность блока нормальным явлением или мне следует немедленно заменить этот диск.
Обновить: Привод вышел из строя позже в тот же день!
Дисковая подсистема:
Другой диск еще не сообщил о сбойных блоках. Я провожу проверку согласованности.
Когда диски используются в массиве, контроллер устанавливает время восстановления после ошибок. Это заставит диски сообщать об ошибках среднего размера, если они не могут сразу прочитать данные. Это не означает, что они не восстановятся после ошибки чтения или что сектор полностью не читается.
(Дешевые диски SATA не поддерживают TLER и вызовут зависание операции чтения, пока диск пытается восстановить данные; это лишь одна из многих причин, по которым более дешевые диски SATA не следует покупать в массивах; это, конечно, не применяется на этот конкретный вопрос)
Если диск определяет, что сектор не читается, он переназначает сектор. Об исходном поврежденном секторе не будет сообщаться по цепочке, поэтому программное обеспечение, работающее в ОС, не имеет возможности узнать. Единственное, что вы можете сделать, - это просмотреть отчет SMART и посмотреть, было ли / сколько секторов переназначено. Переназначение многих секторов - хороший признак грядущих неприятностей. SMART также может сообщать, сколько раз на диске возникала программная ошибка по сравнению с жесткой ошибкой.
В любом случае предаварийное прогнозирование SMART оказалось менее чем полезным; а Google SMART Study поддерживает это.
На больших дисках есть много дополнительного места для перемещения сбойных секторов, я видел, как сотни секторов заменялись в течение 2 недель, а затем диск продолжал работать еще месяц (RAID6, поэтому мы не торопились).
Если он продолжает предупреждать вас каждый день с несколькими замененными секторами, я бы заменил его, прежде чем он выйдет из строя. Одна вспышка сбойных секторов при первом использовании диска совсем не страшна, но постоянное состояние обычно означает наличие твердых частиц в корпусе или повреждение головки чтения / записи.
Обычно я не отвечаю на свой вопрос, но в этом случае у меня есть однозначный ответ: замените диск как можно скорее. Рассматриваемый привод отказал позже в тот же день.
Рано утром я получил три электронных письма, которые выглядели следующим образом. Вот откуда я узнал, что у диска плохие блоки, и это было единственным предупреждением:
======================================================================================
ADAPTEC's EMAIL NOTIFICATION MANAGER (Instant)
======================================================================================
Event Type : Warning
Event Source : storage@HV2.domain.local
Date : 06/29/2011
Time : 05:29:03 AM PDT
--------------------------------------------------------------------------------------
Event(s) List With Description
--------------------------------------------------------------------------------------
Bad Block discovered: controller 1 (21a6e00).
--------------------------------------------------------------------------------------
**[Note]: This message was generated by the Adaptec Storage Manager Agent.
Please do not reply to this message.
К концу дня это не удалось.
Я не использовал диски SAS, но у меня были обычные диски SCSI и диски IDE, которые получают несколько сбойных блоков, а затем годами работают без каких-либо других проблем. S.M.A.R.T. Статус должен сообщать вам, когда диск выходит из строя и рискует выйти из строя.
Кроме того, пока вы используете RAID, отличный от RAID 0, вы защищены в случае сбоя.