Назад | Перейти на главную страницу

Почему мой сервер случайно выходит из строя?

У меня есть сервер на базе CentOS 5.3 с ядром 2.6.18-128.2.1.el5. Он работал нормально почти месяц, но на этой неделе он выходил из строя три раза. Увидел в Nagios, пишите емейл для перезагрузки сервера. Он проработал 12-36 часов, потом снова вышел из строя.

Я просматриваю логи. Незадолго до первой неисправности в /var/log/messages было это сообщение:

logrotate: ALERT exited abnormally with [1]

После перезагрузки сервера второй раз системный администратор из центра обработки данных прислал мне этот снимок экрана: альтернативный текст http://www.freeimagehosting.net/uploads/bd9fb68d98.png Перед третьей ошибкой в /var/log/messages было сообщение:

Eeek! page_mapcount(page) went negative (-1)

Как мне исследовать проблему?

UPD:

Часть memtester вывод:

Compare OR          : FAILURE: 0x7e9f90d1 != 0x7e9fd2d1 at offset 0x06222609.
FAILURE: 0x7e9f90d1 != 0x7e9fd0d1 at offset 0x06222621.
FAILURE: 0x7e9f90d1 != 0x7e9fd1d1 at offset 0x06222661.
FAILURE: 0x7e9f90d1 != 0x7e9f92d1 at offset 0x06222681.
FAILURE: 0x7e9f90d1 != 0x7e9fd0d1 at offset 0x062226a1.
FAILURE: 0x7e9f90d1 != 0x7e9fd0d1 at offset 0x062226c1.
FAILURE: 0x7e9f90d1 != 0x7e9f93d1 at offset 0x062226e9.

Это неисправная память. Спасибо за помощь!

Мое первое предположение состоит в том, что у Nagios небольшая утечка памяти, и после нескольких месяцев работы закончилась оперативная память или свопинг. Однако, поскольку машина несколько раз выходила из строя в один и тот же день, это говорит о неисправности микросхемы ОЗУ. Моим первым шагом было бы провести тест памяти или проверить журнал сбойной памяти (если ваш сервер это поддерживает).

Я тоже голосую за неисправный таран. Я бы рекомендовал использовать memtest86 сделать тщательную проверку тарана. Кроме того, температура в комнате хорошая и прохладная?

Я тоже голосую за неисправную RAM. Если вы не можете использовать memtest86 из-за того, что машина находится удаленно, вы можете вместо этого попробовать инструмент пользовательского пространства - memtester. Он работает не так хорошо, но может обнаруживать некоторые ошибки памяти, если они есть.

На первый взгляд кажется, что процесс, который вызвал панику, был Нагиос. Было ли это постоянным каждый раз, когда он запаниковал и заперли? Если да, то я бы спросил, начались ли проблемы примерно в то время, когда вы настраивали Nagios. В этом случае вы можете попробовать выключить Nagios и посмотреть, вернется ли сервер в стабильное состояние. Если это так, значит, вы нашли виновника и должны присмотреться, чтобы увидеть, что не так с Nagios.

Google или Centos форумы / список, вероятно, будут вашим лучшим выбором. Без дампа crsah будет сложно быть уверенным, поэтому вам следует изучить его настройку.

Вы также можете выполнить поиск через Redhat bugzilla. это выглядит возможность, основанная на том немногом, что у вас есть на снимке экрана.