Немного запутанная ситуация, с которой я имел дело в течение нескольких дней. У меня есть несколько безголовых серверов CentOS (6.4) со следующей статистикой:
Ядро
Статус SE: отключен (знаю, знаю)
Пакеты
libpri-1.4.12-6_centos6.x86_64
libpridevel - 1.4.12-6_centos6.x86_64
dahdi-прошивка-oct6114-128-1.05.01-119_centos5.noarch
dahdi-linux-2.7.0-18_centos6.x86_64
Когда эта установка работает, она работает отлично. Десять серверов в разных местах, на которых установлено одинаковое оборудование и программное обеспечение. Однако три из десяти серверов продолжают блокироваться. Под блокировкой я подразумеваю полное отсутствие ответа в сети, и никакие телефонные звонки не могут быть отправлены или получены. Для того, чтобы сервер снова стал работоспособным, требуется жесткое выключение / перезагрузка сервера.
/ var / log / messages, dmesg и dmesg, old просто прекращают запись, когда система блокируется, но в журналах нет ошибок, аппаратных ошибок, паники и т.д. / var / log / boot показывает нормальный запуск, только несколько предупреждений о Prodigy (которые не используются). / var / log / mcelog всегда пуст, без счетчика строк или текста. /var/log/freepbx.log показывает обычные строки ИНФОРМАЦИИ.
Нет никаких закономерностей для временных рамок или рабочей нагрузки серверов, которые коррелируют с блокировкой. Иногда это будет три часа, иногда три дня. Датчики показывают, что температура всегда в пределах допустимого диапазона, и журналы пороговых значений ЦП не записываются. Я установил kdump и установил параметры ядра для паники при программной блокировке и зависании, а также значения по умолчанию. kdump.conf был изменен на перезагрузку по умолчанию. Когда я вручную SYSRQ C (паника ядра), запускается kdump и выгружает файл сбоя (хотя по какой-то причине после этого он не перезагружается автоматически). Использование SAR для процессора никогда не превышает 5% использования, память никогда не превышает 10% использования. Пиковое значение rd_sec жесткого диска составляет 5,86, пиковое значение wr_sec - 120. Максимальное значение утилиты было в среднем около 7%.
Я запустил memtester и нагрузил систему, ПЫТАЯСЬ вызвать ее сбой, но безрезультатно (система должна оставаться включенной, если это вообще возможно). Memtester, работающий с 512M и 50 итерациями, до 2048M и 100 итерациями, все протестировал "нормально", никаких проблем.
Я не вижу причин для блокировки этих ящиков или почему не запускается kdump (если это паника ядра). Я исчерпал свои навыки поиска в журналах, пытаясь найти причину такого поведения.
Есть ли у кого-нибудь еще идея, где я мог бы поискать, или что я мог бы сделать, чтобы определить проблему здесь, пожалуйста?