С кажущимися случайными интервалами использование памяти на нашем сервере увеличивается по сравнению с максимально доступным и меняет местами, пока загрузка ЦП также не станет 100%. Затем он начинает убивать процессы, когда у него заканчивается память подкачки, и мы должны перезапустить сервер.
Когда это происходит, наш веб-сайт и внутренние системы перестают отвечать. Я также не могу подключиться к серверу по SSH на данный момент, поэтому у меня нет возможности определить процессы, которые его убивают.
У меня нет большого опыта работы с администратором сервера, но я ищу идеи, как обнаружить проблему. Сообщите мне, какая дополнительная информация вам может понадобиться.
Это может быть вилка-бомба tbh (то есть процесс, который бесконечно разветвляет детей и, следовательно, истощает ресурсы). Также может быть проблема типа утечки памяти.
Определение ключевого процесса (ов) является ключевым здесь. Попробуй это:
При следующем перезапуске сервера оставьте консоль открытой как root, но используйте renice, чтобы установить ее приоритет на -20. Как только это будет сделано, запустите (верхний с приоритетом -20) и посмотрите, что вызывает проблему.
Эта команда должна это сделать:
sudo bash
renice -n -20 -u root
top
Когда все начинает выглядеть круто, прибегайте к команде killall или убивайте родителя, а затем зомби.
При -20 вы должны иметь возможность поддерживать активное соединение по ssh и по-прежнему выполнять свою работу с тем же приоритетом, что и ядро.
Не забывайте также заглядывать в журналы (веб-сервер и в других случаях в / var / log), поскольку они могут быть весьма показательными.
Если вы обнаружите проблему, сообщите нам, в чем она заключается, и если вам потребуется дополнительная помощь.
Удачи.
См. Справочную страницу renice и верхнюю справочную страницу.
Установите (и внимательно прочтите документацию!) sysstat
, настроить его и проанализировать собранные данные после такого инцидента.
Проверьте действующие политики безопасности (SELinux активен, ulimit
для различных пользователей, ...). Убедитесь, что все обновлено (причиной этого, безусловно, может быть неисправная программа).
Проверьте все системы домашнего пивоварения на предмет возможных циклов или другого истощения ресурсов. Реальные все журналы, даже для баз данных и тому подобное.