Каждый день я получаю письмо от logwatch
программа на веб-сервере нашей компании. Сервер работает под управлением CentOS 6 и использует Apache, MySQL и PHP для обслуживания веб-страниц. Это специализированное оборудование (не VPS) в центре обработки данных в Великобритании. К нему подключены два USB-накопителя, на которые мы делаем резервную копию.
Сегодня утром (под Kernel Begin
заголовок) я увидел следующие ошибки:
http://pastebin.com/raw.php?i=W8ZBf5E8
Мне кажется, что ошибки сосредоточены на первом USB-накопителе (/dev/sdc1
). Мои вопросы:
Если это поможет кому-то в дальнейшем диагностировать проблему, вот список всех жестких дисков, подключенных к этому серверу:
http://pastebin.com/raw.php?i=FKkLsuah
Мы с благодарностью принимаем любую помощь или совет.
Лучше отвечать на такие вопросы, просматривая журналы с указанием времени, чтобы понять, что произошло и чего еще не хватает в сводке, но я постараюсь изо всех сил.
Диск не ответил вовремя, что является источником «прерывания задачи», затем он не смог ответить на сами прерывания задачи, что привело к «целевому сбросу». По крайней мере, это удалось. Ситуация ухудшается, если он выходит из строя, что может привести к отказу всего сервера после неудачного сброса хоста, который последовал бы за отказом целевого сброса.
Однако основная причина заключается в том, что диск не ответил вовремя, если вы работаете с 30-секундным таймаутом по умолчанию, это означает, что с диском возникла проблема. Это может быть разовая проблема, вызванная саморегулированием диска, или указание на надвигающийся сбой. Трудно сказать, и обработка зависит от вашей чувствительности к важности диска. Однако вы должны убедиться, что у вас есть резервные копии данных на диске и что они находятся в рабочем состоянии.
Вы должны посмотреть информацию о диске с помощью smartctl (при условии, что это SATA), и вы можете попробовать использовать diskscan для чтения с диска и отображения графика задержки по поверхности диска. Если есть слишком много мест с высокой задержкой (более нескольких секунд), вам следует перезаписать диск и / или заменить его. У diskscan есть возможность исправить диск, что означает, что он перезапишет, казалось бы, плохие места.