Недавно мне пришлось перезапустить сервер, потому что он не отвечал. Я просматриваю журналы, но не могу найти ничего ценного, чтобы узнать, в чем была ошибка.
Капельный CPU был 100% в течение нескольких часов. Вот скриншот:
Когда у капли были проблемы, ни сайт, ни доступ к оболочке были недоступны.
Я не знаю, что еще я могу сделать, чтобы найти ошибку или ее возможные причины. С чего мне начать искать? Какие именно журналы могут быть здесь полезнее?
Сейчас все нормально, после перезапуска ... но может повториться снова.
Помоги мне, пожалуйста. Спасибо.
Прежде чем возиться с Nagios и им подобными, я предлагаю вам установить sar
чтобы следить за вашим сервером. По сути, он не требует настройки, но в то же время собирает много ключевой статистики о том, что работает / происходит на вашем сервере.
Ну, прежде всего, есть ли у вас какие-либо инструменты мониторинга, такие как Nagios, чтобы выделить вам в реальном времени эти события? Это было бы хорошим предложением для вас настроить мониторинг вашего сервера, он может выполнять ряд команд SNMP, таких как:
Для более подробной информации посмотрите следующее дополнение Вот:
=======
USAGE:
=======
./checkProcessesviaSNMP.sh <community-string> <remote-host> <process-names> <warning> <critical> <type>
Этот инструмент должен иметь возможность отслеживать ряд событий на вашем сервере в реальном времени и предупреждать вас по электронной почте (если вы настроили SMTP).
Это решение не устранит неисправность, но должно дать вам предупреждение о том, что происходит в режиме реального времени.