Назад | Перейти на главную страницу

Как я могу диагностировать зависание системы Ubuntu после перезагрузки

Один из наших серверов вчера завис, очевидно, отказавшись обслуживать какие-либо HTTP-запросы. Технический специалист на месте не смог удаленно подключиться к машине, поэтому он перезагрузил (виртуальную) машину из клиента инфраструктуры VMware, и все снова заработало.

Теперь я хочу разобраться, что пошло не так. Я просмотрел пару файлов журналов, и все просто перестали записывать что-либо в 5:00 утра и снова начали регистрацию с последовательностью загрузки. Я не нашел ничего подозрительного, кроме того факта, что несколько заданий cron выполнялись в 5:00 утра. Все это были довольно простые задания, не связанные ни с чем критически важным, и после их завершения была по крайней мере какая-то активность.

Заморозка длилась пару часов. У нас не было никаких других проблем на других виртуальных машинах в том же самом устройстве, которые имеют очень похожую конфигурацию.

Есть ли место, где мне следует начать искать подсказки? Что я могу сказать людям, что делать, если это произойдет снова, прежде чем просто перезагрузить машину? Может быть, Magic SysRq?

Думаю, вы это уже видели, но как-могу-я-использовать-системный журнал-диагностировать загадочные-сбои не знаю, может ли это вообще помочь, ваши серверы испытывают нагрузку / обслуживают большое количество клиентов

Моим первым действием было бы вывести сервер из строя и запустить на нем полный запуск Memtest +, чтобы проверить исправность памяти. Затем проверьте SMART с HDD на наличие проблем. Следующим шагом будет выполнение инструкций на http://www.kernel.org/doc/Documentation/networking/netconsole.txt чтобы запечатлеть что-нибудь подобное в будущем.