редактировать: Хотя это, похоже, произошло из-за отключения электроэнергии на предприятии Linode во Фремонте, у меня все еще были проблемы с этим в прошлом. Любая помощь будет оценена.
Я хочу, чтобы ты научил меня ловить рыбу.
Да, я спрашиваю "Почему у меня падает VPS?" Я уверен, что если бы я дал вам root-доступ к моему серверу, вы бы узнали это за 2 минуты. Я уверен, что вы могли бы сказать мне, чтобы я публиковал свои журналы ошибок, и я бы выслеживал их без особых раздумий. Но я не этого хочу.
Я хочу, чтобы ты научил меня ловить рыбу.
Я столкнулся с проблемой, причина которой мне не очевидна. Посмотрите мои графики Линода, чтобы понять, что я имею в виду. Сбой происходит в то время, когда сетевой трафик и дисковый ввод-вывод минимальны.
Каковы первые, наиболее распространенные и основные места, которые мне следует искать, когда это происходит, и что мне следует искать?
Как меня предупредить об этом (чтобы не пропустить 8 часов, пока сервер не работает)?
Если весь ваш сервер выходит из строя из-за событий, не связанных с сервером, я бы выбрал лучшего провайдера. Тот факт, что из-за отключения электроэнергии машины вышли из строя, указывает на то, что у них нет поставщиков резервного копирования, что вызывает беспокойство, тем более что похоже, что они не предупредили вас до тех пор, пока это не произошло. Я удивлен, так как Linode имеет репутацию довольно надежного.
Каковы первые, наиболее распространенные и основные места, которые мне следует искать, когда это происходит, и что мне следует искать?
О чем ты говоришь? /var/log/*
или аналогичные - отличные места для начала общей отладки, когда вы не знаете, что произошло. К сожалению, для неизвестных сбоев сервера не существует реального решения. Возможно, вы захотите изучить возможность включения более подробного ведения журнала во многих ваших службах, хотя будьте осторожны - это может привести к расширению файлов журнала!
How can I be alerted when this happens (so I don't miss it for 8 hours while the server's down)?
Для этого я нашел самое простое решение - просто использовать внешние сервисы. Для прямых веб-сайтов моей компании мы используем такие утилиты, как Pingdom, а также несколько внутренних инструментов, таких как Nagios и Ганглии. Лучше всего атаковать это по всем направлениям: наличие нескольких источников для проверки вашего времени безотказной работы, а также различных географических регионов - это стандартная практика для мониторинга.
Помните, как бы ни было заманчиво поддерживать свои собственные версии, наличие чего-то, что (а) находится вне вашей сети и контролируется, и (б) имеет несколько серверов по всей стране и / или миру, даст вам гораздо лучшую отдачу. Кроме того, большинство из этих услуг совсем недорогое.
Надеюсь, это поможет или, по крайней мере, направит вас на правильный путь!