Назад | Перейти на главную страницу

RAID1 mdadm, автоматически вывести диск из строя и избежать файловой системы только для чтения?

Я управляю сервером с двумя твердотельными накопителями, настроенными в mdadm RAID1. На сервере работает RHEL6 с файловой системой ext4.

Этим вечером сервер отключился вскоре после начала ночного резервного копирования, и консоль сообщила об ошибках диска:

После входа в консоль я обнаружил, что один из дисков был помечен mdadm как неисправный, а файловая система была установлена ​​в режим только для чтения.

Есть ли способ настроить mdadm на сбой диска до того, как файловая система будет повторно смонтирована как доступная только для чтения? Я бы предпочел работать как однодисковую систему на короткое время (до тех пор, пока не будет установлен заменяющий диск), а не сразу переводить файловую систему в режим только для чтения, что гарантировало бы сбой.

Он делает это по умолчанию, но, конечно, у меня были аналогичные проблемы с этим. MD на самом деле не стремится к отказу дисков (или, фактически, к восстановлению секторов путем их перезаписи, что и делают аппаратные RAID-контроллеры). Вот почему я настроил мониторинг журнала на поиск «исключения ata» и отправляю мне электронное письмо, когда это произойдет. По крайней мере, с традиционными жесткими дисками это позволяет намного быстрее обнаруживать сбои дисков.

Если файловая система помечена как доступная только для чтения, ошибка возникла выше по цепочке, и MD-устройство также обнаружило ошибки. Вы уверены, что на sdb не было ошибок?

Или вы уверены, что диски вообще вышли из строя? Совсем недавно со мной могло случиться, что вся шина PCI вышла из строя. Все подключенные к нему устройства начали выдавать ошибки (все ATA и Ethernet), и действительно, файловые системы были помечены как доступные только для чтения, а массивы MD - как неисправные. Но, очевидно, проблема не в дисках или MD.

Чтобы проверить, были ли диски ошибочными: у меня нет большого опыта работы с SMART на SSD-дисках, но, по крайней мере, с жесткими дисками, журнал SMART может что-то показывать; в нем есть журнал ошибок, и вы можете посмотреть параметры смарт, возможно, сравнить с другим диском.

Если установлен smartmontools, вы можете:

smartctl -a /dev/sda

Вас также может заинтересовать Как устранить неполадки в RAID-массиве.

Изменить: Что касается шины PCI. Похоже, ваша проблема была локализована на один диск или контроллер.