У меня есть система Linux с 3 программными устройствами RAID1, каждое из которых состоит из двух идентичных разделов на двух идентичных дисках. Недавно в одном из некорневых разделов на одном диске начались ошибки DMA; Поэтому я пометил это как неудачное. Когда я перезагрузил машину, ядро успешно запустилось, но почти сразу же стало печатать ошибки DMA (предположительно связанные с неисправным разделом). Разве отметка проблемного раздела как неисправного не должна позволять машине загружаться без ошибок? Если нет, как я могу загрузить систему? Я попытался изменить файл mdadm.conf в загрузочном образе машины, чтобы не указывать проблемный раздел в списке устройств RAID-устройства, которое его составляет, но это, похоже, не имело никакого эффекта. Следует также отметить, что я могу получить доступ к ухудшенному устройству RAID, если загрузлюсь с аварийного компакт-диска и вручную соберу устройство из оставшегося исправного раздела.
Похоже, вы используете Программный RAID Linux, и у вас есть устройства RAID, настроенные с использованием разделов вместо целых дисков.
В этом случае просто не удается раздел не поможет: неудача водить машину (аппаратный компонент) - вот что вызывает ошибки. Каждый раз, когда операционная система пытается получить доступ к этому аппаратному компоненту, у вас возникают проблемы, и поскольку диски обычно не выходят из строя только в одном месте, проблемы распространяются по всем разделам, пока диск, наконец, не откажется и не умрет.
Я предлагаю вам сделать резервную копию ваших данных СЕЙЧАС, используя аварийный компакт-диск (который, по-видимому, работает в соответствии с вашим вопросом), а затем замените неисправный аппаратный компонент, перестроив свой массив (-ы) RAID соответствующим образом.
В долгосрочной перспективе вы захотите структурировать свой программный RAID так же, как и аппаратный RAID (используя целые диски, не разделы) - при необходимости создайте RAID на имеющихся физических дисках, а затем разделите виртуальное (RAID) устройство. Это позволяет вам провалить умирающий водить машину (аппаратный компонент) или, если необходимо, удалить его и позволить системе загрузиться без него с известным и четко определенным набором побочных эффектов, вместо того, чтобы удивляться тому, что постоянно растущий уровень отказов диска вызывает все больше и больше разделов-RAID шататься ...
Если вы доверяете программному RAID в производстве, вы также должны запустить smartd
из пакета smartmontools и настроить его так, чтобы он предупреждал вас, когда диски начинают выглядеть нестабильно ...