Назад | Перейти на главную страницу

Как узнать, почему сервер зависает, но все еще доступен по пингу

Один из моих серверов, который работает в немецком центре обработки данных, "зависает" каждую ночь, но я не могу понять почему. В / var / log / messages и / var / log / syslog ошибок не обнаружено.

Сервер отвечает на пинг, но все службы не работают (ssh, apache, ...). После сброса все работает нормально.

Был проведен тест оборудования. Похоже, проблема в программном обеспечении.

Я бы оставил некоторые легкие команды профилирования, записывающиеся в файлы, чтобы вы могли понять, что пошло не так, постфактум. Например:

nohup top -b -d 60 >> top.log & # runs every 60 seconds
nohup vmstat 5 >> vmstat.log &
nohup iostat 5 >> iostat.log &

nohup есть, чтобы они не убивались, когда вы теряете соединение с сервером. Вы также можете использовать screen для этого.

Более надежной альтернативой двум последним командам будет установка сар.

Когда я сталкиваюсь с подобными проблемами, это обычно приводит к проблемам с заданием cron.

Проверьте свой системный журнал на наличие заданий cron, выполняющихся в то же время дня, когда сервер зависает. Также проверьте корневой crontab (crontab -e) и рабочие места в /etc/cron.daily за все, что может нести ответственность.

Похоже, случайный сбой может быть вызван неисправным оборудованием. Попросите хостинговую компанию увидеть, есть ли ошибки в POST или на ЖК-дисплее сервера. Если это сервер dell, вы можете установить open manage, который сообщит вам, неисправно ли какое-либо оборудование. По моему опыту, неисправный димм памяти может вызвать случайные перезагрузки сервера. В зависимости от того, какой тип оборудования вы используете, ваш хостинг должен иметь возможность выполнить замену шасси на сервере, если проблема не исчезнет.