Назад | Перейти на главную страницу

Безопасно ли пометить диск в поврежденном массиве raid 5?

Консоль Intel Matrix Storage Console 8.9 показала деградированный массив с отказом одного диска. Тем не менее, он предлагает возможность пометить диск как нормальный и перестроить массив? Когда это уместно? Он неправильно оценивает сбой диска? Зачем предлагать этот вариант?

Это тестовый сервер, и у меня есть резервные копии, поэтому я не сильно обеспокоен и попытался пометить диск как нормальный, и он восстановил том, не указывая на дальнейшую проблему. НО есть ли проблема?

Дополнительно...

Замечательные отзывы заставляют меня задуматься, какие методы лучше всего протестировать. SMART тесты упомянуты ниже. Наверное, сниму диск, восстановлю на новый.

Мне все еще кажется неясным, может ли том перестраиваться и не показывать ошибки, как это уже произошло с этим существующим диском?

Диски могут быть отмечены в массиве как неисправные по многим причинам. Может есть несколько неисправных секторов. Возможно, головки дисковода выходят из строя. Может быть, космические лучи попадают в ваш привод под нужным углом и пора провалить сканирование. Может в их прошивке есть баг, который ломается под.

Некоторые из них - неисправимые неисправности, некоторые - нет.

Дело в том, что сбои жесткого диска действительно сложно предсказать. Печально известная газета Google обнаружил, что SMART был полезен только в том случае, если бы он предупредил, диски с большей вероятностью вышли из строя, чем если бы это не было. У 36% неисправных дисков не было ошибок SMART, фатальных или нет. Таким образом, вы можете запустить полный набор сканирований SMART, не найти ничего и знать не больше, чем сейчас.

Но если предположить, что это была неожиданная ошибка, а не сбой «Я сделал что-то смешное и это-провалил», у вас уже есть указание на проблемы с диском. Теперь это вопрос стоимости.

Сколько стоит еще один диск?
Сколько времени потеряли бы его пользователи, если бы этот сервер умер?
Сколько вашего времени будет потеряно, если этот сервер умрет?
Сколько стоит все это время?
Удвойте это значение, чтобы учесть (наивно) альтернативные издержки

Я никогда не был в ситуации, когда стоило дать диску выйти из строя. Зачем терпеть боль? Скорее всего, нужный вам диск довольно дешевый. Просто купите и двигайтесь дальше.

Если вам небезразличны данные, немедленно замените диск новым и перестройте массив. Затем вы можете запустить расширенное тестирование удаленного диска и повторно аттестовать его для использования, если он пройдет успешно. Однако, если вы попытаетесь восстановить отказавший диск на месте, вы увеличите время, в течение которого вы уязвимы для отказа двух дисков, если что-то пойдет не так во время или после процесса восстановления.

Однажды у меня был неисправный кэдди в старом массиве SCSI U160, который был одним из 14 дисков в массиве. Когда я заменил кэдди (с диском все было в порядке), он все еще думал, что он неисправен, потому что у диска был тот же серийный номер.

Поэтому я пометил его как ОК, массив был восстановлен, и все было в порядке, пока мы не сняли его с эксплуатации.

Все зависит от вашей ситуации, но обычно я бы никогда не пометил диск как ОК, если не был на 100% уверен, что он в порядке. Даже с вероятностью 99,9% я бы удалил массив и начал заново.

Это полностью зависит от причины отказа диска. В некоторых случаях я видел, как идеально исправные диски выходили из строя при запуске с дешевыми рейд-картами, потому что у контроллера был сумасшедший момент и не обнаружил привод. Однако это довольно редко, я провел кучу SMART-тестов на диске и выполнил полный тест на плохие блоки, протерев весь диск с помощью DD. Этот конкретный диск был нормальным по всем моим стандартам, и поскольку я использовал raid5, а не Linear или raid0, я снова добавил его в массив.

Запустите тест SMART, используя диск восстановления Linux или аналогичный, запишите количество плохих блоков, запустите полный тест SMART, а затем снова посмотрите количество плохих блоков. Если бы он увеличился на что-то большее, чем 20, я бы этому не поверил. То же самое, если плохие блоки особенно высоки для этого размера / марки диска.

Риск заключается не только в том, что диски полностью выйдут из строя, но и в том, что ваши данные со временем могут быть повреждены.

Можете ли вы также включить показание "smartctl -a / dev / hda" для этого диска в исходный вопрос, спасибо.