2 дня назад я получил предупреждающее сообщение:
A DegradedArray event had been detected on md device /dev/md1.
Я связался со своим центром обработки данных и попросил их заменить жесткий диск. Мне сказали, что иногда перезагрузка сервера решает проблему. Я перезагрузил сервер, но он не вернулся в онлайн.
Центр обработки данных сообщил мне, что оба жестких диска выведены из строя, и предложили заменить их и продолжить восстановление сервера.
Я восстановил сервер, и на следующий день раздел / перешел в режим только для чтения. Я получил сообщение из центра обработки данных:
Уважаемый клиент,
проверка файловой системы завершена. Как и предполагалось, структура файловой системы была повреждена, и сервер не может загрузиться. Данные / dev / md2 были перемещены из-за обширных ошибок файловой системы в каталог lost + found. Вы можете получить доступ к файлам через активный режим восстановления (пароль восстановления: ***) в каталоге / mnt. Пожалуйста, проверьте и попробуйте сделать резервную копию ваших файлов. После этого выполните новое восстановление операционной системы.
Я также проверил значения SMART обоих жестких дисков. Оба жестких диска имеют хорошие показатели SMART.
Что может вызвать такие проблемы с жесткими дисками? Возможно ли, что мой центр обработки данных не менял неисправные диски, и я выполнил новую установку с теми же дисками?
В вашем центре обработки данных работают ленивые люди, идиоты или, возможно, ленивые идиоты.
Перезагрузка не может (или, по крайней мере, не должна) волшебным образом исправить неисправный жесткий диск.
Повторная установка диска (очень распространенный «трюк») не исправит диск, помеченный как отказавший из-за ошибок (в конечном итоге он снова отключится).
Тот факт, что ваш сервер не пережил перезагрузку, означает, что у вас есть логическое повреждение - либо из-за нескольких физических сбоев, либо из-за какой-либо другой проблемы.
Сделайте резервную копию всего, как они сказали, и замените диски на новые, а в следующий раз, когда вы получите сбой диска, настаивайте на замене диска и позвольте RAID-массиву восстановить.