Как видно из названия, мой сервер Ubuntu 14.04 перестает отвечать после определенного периода простоя. Это будет прокси-сервер NGNX, но он еще не будет принимать производственный трафик по очевидным причинам. Он работал около месяца без проблем, пока я ждал, пока сетевое оборудование будет обновлено, прежде чем отправлять на него трафик.
Но через пару недель он начал переставать отвечать, и мне пришлось перезапустить компьютер через IPMI (у меня нет физического доступа к нему). После перезагрузки я исследовал журналы и заметил несколько «ОБРАБОТКА ОШИБОК ПАМЯТИ MCE» в журналах ядра. Этот процесс повторялся несколько дней. Я попросил одного из серверов заменить модули DIMMS, и эта ошибка исчезла, но исходная проблема все еще осталась.
Затем я без ошибок запускал MEMTEST около 60 часов. Затем стресс-тест ЦП в течение 24 часов с MPRIME, во время этого теста сервер работал все время и не имел ошибок.
Похоже, что память и процессор работают правильно, но когда машина какое-то время простаивает, она перестает отвечать, и мне приходится ее перезагружать. Я не думаю, что это проблема с настройкой мощности, потому что до этого он не работал около месяца.
Любые идеи?
РЕДАКТИРОВАТЬ: В итоге не удалось понять эту проблему, поэтому просто вставил жесткий диск в идентичную систему.