Я использую серверную версию ubuntu 12.04 LTS, и два раза за прошедшие 48 часов или около того VPS полностью перестал отвечать. Nginx перестает отвечать на запросы. В мою службу ведения журналов отправлены действия журнала. Данные New Relic перестают отправляться. Я даже не могу установить ssh в ящик. Единственный способ решить эту проблему - это зайти в систему управления моего хостинг-провайдера и выполнить полный перезапуск VPS. После перезагрузки все в порядке, пока это не повторится снова.
У меня есть 1 ГБ ОЗУ плюс еще 1 ГБ в свопе.
Я просмотрел журналы и не нашел свидетельств того, что OOM убивает какие-либо процессы.
Ниже приведены скриншоты NewRelic о загрузке сервера.
Есть ли другое место, где мне следует поискать подробности? Может быть ошибка ядра.
Если это VPS, сообщение OOM обычно появляется на аппаратном узле. Обратитесь к своему хостинг-провайдеру и узнайте, могут ли они найти какие-либо проблемы с OOM, связанные с вашим VPS.
Обычно в случае зависания журнала сценария не очень помогает, так как процесс syslog / rsyslog также зависает и перестает писать журналы. Чтобы справиться с такой ситуацией, настройте kdump вместе с sysrq и сгенерируйте vmcore. Это даст вам то, что на самом деле происходит когда возникает эта проблема
Я мало что знаю об ubuntu, но нашел эту ссылку https://wiki.ubuntu.com/Kernel/CrashdumpRecipe
Как использовать утилиту сбоя http://people.redhat.com/anderson/