Назад | Перейти на главную страницу

На каком диске в RAID есть поврежденные сектора?

У меня есть 4 физических диска на одном виртуальном диске с использованием контроллера LSI MegaRaid SAS. Кажется (по крайней мере) на одном из дисков есть поврежденные сектора, потому что:

Я надеюсь, что решить проблему будет так же просто, как заменить проблемный диск (диски) и перестроить массив рейдов. Я думал, что LSI MegaRaid WebBIOS позволит мне определить проблемный диск (диски), но я не могу найти никаких вариантов для проверки наличия битых секторов.

Ниже приведен снимок экрана WebBIOS:

Может ли кто-нибудь дать совет относительно того, как можно определить проблемный диск (диски)?

Smartmontools имеет расширения, которые позволяют ему опрашивать диск на предмет данных SMART через LSI (а также другие) RAID-массив. Обычно это не то, что вы можете сделать, поскольку абстракция RAID закрывает прямые интерфейсы с дисками.

Smartmontools может быть не установлен на вашем компьютере. Однако он встроен в большинство "основных репозиториев" большинства дистрибутивов, и есть даже версия для Windows по адресу: http://sourceforge.net/projects/smartmontools/files/

Его можно использовать для опроса диска за контроллером LSI MegaRAID следующим образом:

smartctl -a -d megaraid,N /dev/sdX

Где «-a» означает отображение всех данных на диске, -d означает тип устройства (в вашем случае мегарайд - это тип), за которым следует N, что означает номер диска в этом контроллере. Чтобы получить доступ к диску в слоте 0, вы должны сказать здесь 0. Если вы хотите опросить все четыре своих диска, выполните эту команду четыре раза, заменив N на 0–3. SdX - это сама абстракция RAID, как это обычно бывает в операционной системе. Ваш, вероятно, sda.

Вы увидите длинный вывод с каждого диска, и то, что вы ищете, - это либо сообщение об общем сбое SMART (которое вы можете не найти, так как ваш контроллер не отклоняет диски), либо сообщение о «автономных неисправимых секторах» или незавершенные секторы ". Любой диск с более чем 0 в этом поле - плохой. К этим полям не следует относиться пощады, так как для увеличения любого значения на единицу требуется МНОГО неудачных чтений.

Вы также можете выполнить короткий или длинный тест (применяются те же правила, что и выше):

smartctl -t [long|short] -d megaraid,N /dev/sdX

Если RAID передает ошибки вам, то очевидно, что что-то не так, и исправить это без предупреждения невозможно.

Если вы получаете ошибки чтения, это означает, что все избыточные копии этих блоков были уничтожены. Неисправные диски не выбрасываются, потому что нет запчастей.

Если вы получаете ошибки записи, это означает, что один диск продолжает сообщать об ошибках записи, и RAID не может извлечь его, потому что в настоящее время он не является избыточным. Вы никогда не должны увидеть ошибку записи в избыточной установке, поэтому, если вы это сделаете, замените контроллер.

Если вы можете добавить больше дисков, создайте третье зеркало - восстановление будет жаловаться, и вам нужно будет проверить файловые системы, но в конечном итоге вы должны сохранить как можно больше ваших данных нетронутыми, и я бы ожидал хороших результатов. контроллер, чтобы затем выгнать все сломанные диски.

Как только вы вернетесь к чистой настройке, настройте запланированные проверки, чтобы выявить эти ошибки, прежде чем они станут проблемой.

Если вы используете Linux или Windows, загрузите систему и воспользуйтесь утилитой megacli.

megacli -pdlist -aALL

В результатах проверьте строку «Состояние прошивки». Ухудшенный диск будет отображаться как:

Firmware state: Offline