Я понятия не имею, как сервер упал, единственное, что я нашел исключительным, - это следующий график от munin:
Пожалуйста, не говорите мне, что мне нужно больше ОЗУ, как видите, до инцидента все было стабильно. Я просто не понимаю, почему внезапно произошел сбой сервера и почему внезапно возросла потребность в памяти.
Сначала проверьте dmesg и системные журналы на предмет использования панели ядра или памяти. Похоже, у вас есть приложение, которое использует всю вашу память. Попробуйте этот сценарий, который сохранит ваш список процессов в файле, и вы узнаете, что вызвало проблему:
#!/bin/bash
mkdir /tmp/mem_log
while [ 1 ] ; do
date "+%Y-%m-%d %H:%M:%S"
ps aux
sleep 60
done
и выполните это так:
nohup ./mem_log.sh > /tmp/mem_log/mem_log.log &
После следующего сбоя сервера проверьте журнал, чтобы узнать, какой процесс использовал всю вашу память. Это проблема с памятью, но не потому, что у вас недостаточно памяти, это просто неисправный процесс, который вызывает это.
Вы можете установить psmon и заставить его сообщать / уничтожать некорректные процессы, требующие большого количества памяти. Psmon регистрирует / отправляет электронные письма о событиях, на которые он реагирует, так что вы можете легко узнать, какой у вас мятежный процесс.