Один из моих серверов, который работает в немецком центре обработки данных, "зависает" каждую ночь, но я не могу понять почему. В / var / log / messages и / var / log / syslog ошибок не обнаружено.
Сервер отвечает на пинг, но все службы не работают (ssh, apache, ...). После сброса все работает нормально.
Был проведен тест оборудования. Похоже, проблема в программном обеспечении.
Я бы оставил некоторые легкие команды профилирования, записывающиеся в файлы, чтобы вы могли понять, что пошло не так, постфактум. Например:
nohup top -b -d 60 >> top.log & # runs every 60 seconds
nohup vmstat 5 >> vmstat.log &
nohup iostat 5 >> iostat.log &
nohup
есть, чтобы они не убивались, когда вы теряете соединение с сервером. Вы также можете использовать screen
для этого.
Более надежной альтернативой двум последним командам будет установка сар.
Когда я сталкиваюсь с подобными проблемами, это обычно приводит к проблемам с заданием cron.
Проверьте свой системный журнал на наличие заданий cron, выполняющихся в то же время дня, когда сервер зависает. Также проверьте корневой crontab (crontab -e
) и рабочие места в /etc/cron.daily
за все, что может нести ответственность.
Похоже, случайный сбой может быть вызван неисправным оборудованием. Попросите хостинговую компанию увидеть, есть ли ошибки в POST или на ЖК-дисплее сервера. Если это сервер dell, вы можете установить open manage, который сообщит вам, неисправно ли какое-либо оборудование. По моему опыту, неисправный димм памяти может вызвать случайные перезагрузки сервера. В зависимости от того, какой тип оборудования вы используете, ваш хостинг должен иметь возможность выполнить замену шасси на сервере, если проблема не исчезнет.