Я только что перезагрузил свой сервер debian для технического обслуживания (изменил ядро). Однако, похоже, перезагрузка не завершилась. Итак, я вошел в систему с помощью Remote KVM и обнаружил, что он зависает при принудительной проверке диска. Я (сейчас) знаю, как избежать принудительной проверки диска:
sudo tune2fs -c 0 -i 0 /dev/sdaX
Однако мне интересно, каковы хорошие практики для реальных веб-серверов в отношении проверки дисков. Вы, ребята, просто никогда не проверяете диски в своих серверных системах? Вы время от времени тратите около часа простоя на то, чтобы запустить проверку диска, или есть даже способ запустить его в течение обычного времени безотказной работы?
Вообще говоря, если ваша система всегда полностью выключается, вам не нужны принудительные (при монтировании или в течение нескольких дней) проверки целостности файловой системы - в основном вопрос заключается в следующем: «Доверяете ли вы, что ваша файловая система не облажается, если ее оставят на ее собственных устройствах?» И принудительный fsck - это, по сути, «Нет».
В моих системах (BSD / UFS) регулярные проверки диска не входят в структуру файловой системы и не выполняются регулярно, и если вы хотите запустить такую проверку на смонтированной файловой системе, это возможно (фоновый fsck). Есть некоторые хаки которые делают нечто подобное с файловыми системами ext2 / ext3.
Если файловая система не была полностью размонтирована (например, из-за сбоя), я думаю, вам может не повезти - опять же, в системах BSD проверка диска может выполняться в фоновом режиме (хотя и со значительным снижением производительности), но я не знаю можно ли использовать фоновые хаки fsck для Linux во время загрузки.
У тех, кто использует LVM (-2), есть способ лучше: они делают снимок, проверяют его и, если все в порядке, удаляют его, а затем откладывают запланированный fscking.
Я не уверен, имеете ли вы в виду проверки физического диска или проверки файловой системы, но в любом случае вот что мы делаем:
Проверки файловой системы (fsck) выполняются по мере необходимости, если только мы не начинаем видеть проблемы, указывающие на потенциальное повреждение файловой системы.
Физические проверки мы никогда не проводим, если у нас нет дисков, указывающих на отказ. Это не значит, что мы не контролируем наши физические диски. System Center Operations Manager и Dell Open Manage отлично справляются с работой с серверами Dell и отслеживают их оборудование на предмет сбоев и потенциальных / надвигающихся сбоев.