Назад | Перейти на главную страницу

Обновление диспетчера хранилища MegaRAID и теперь множество ошибок мультимедиа

Я просто ковырялся в сервере 5-летней давности и заметил, что диспетчер хранилища MegaRAID (14.08.01) не отвечает. Сервер проработал около 400 дней без перезагрузки.

Я не хотел перезагружать его, поэтому я установил новую версию (17.05.00), и, похоже, все прошло нормально. Сразу после запуска MSM он начал обнаруживать «Неожиданный смысл невосстановленной ошибки чтения» на диске 0.

Я заказал в WD диск RMA с экспресс-доставкой, а затем запустил проверку согласованности. Теперь я вижу ту же ошибку (но гораздо реже) на другом диске. У меня четыре диска в RAID 10 плюс один горячий резерв. Один из дисководов имеет 156 ошибок носителя, а другой 10. Я облажался?

Должен ли я вывести из строя диск, на котором больше всего ошибок носителя, и попытаться восстановить его?

После восстановления массива проверьте файловые системы на случай скрытого повреждения данных.

Вы можете потерять два целых диска в четырехдисковом массиве RAID 10. В зависимости от того, какой из этих дисков вышел из строя, вы можете не ошибиться ни на один бит. Убедитесь, что оба этих диска являются членами противоположных массивов RAID 1. Если да, то у вас почти наверняка все в порядке. У вас также есть «горячий» резерв, который должен действовать как «побочное» пространство для большинства контроллеров - хотя я не уверен, будет ли ваш контроллер делать это, потому что я не знаю, что это такое.

Даже если ваш контроллер не использует «горячий» резерв в качестве временного или аварийного пространства, он все равно должен регулярно выполнять патрульные чтения, которые могли обнаружить эти проблемы и переместить области данных. Журнал вашего контроллера будет хорошим местом, чтобы увидеть, произошло ли это во время хотя бы нескольких последних считываний патрулей. Я понятия не имею, сколько лет этим ошибкам СМИ.

Что касается вашего адаптера, если вы не используете в своем контроллере диски, сертифицированные производителем, ваш контроллер не обязательно будет так умно извлекать элементы, когда они начинают выходить из строя - обычно он может извлекать их только тогда, когда они выпадают, или сообщают серьезный сбой SMART. Однако накопитель мог некоторое время выходить из строя, прежде чем запустить общий отчет о состоянии SMART.

Даже если это не нормально, выполните перестройку и выполните проверку согласованности + проверку файловой системы. Вы также увидите ошибки ввода-вывода файловой системы в dmesg, если вы действительно столкнулись с повреждением на уровне файловой системы. В худшем случае вам нужно будет восстановить некоторые файлы или весь массив из резервной копии. Выполняйте восстановление одного диска за раз, а не обоих. Начнем с замены самого оборванного диска.