Назад | Перейти на главную страницу

Какие шаги я должен предпринять, чтобы определить основную причину сбоя сервера Linux?

Прошу прощения, если этот вопрос уже рассматривался ранее, я предполагаю, что да, но после получаса поиска я ничего не нашел.

Во всяком случае, на вопрос:

Я специалист по Windows и программист-самоучка, поэтому я новичок в Linux, но мне он нравится больше, чем Windows. У нас есть небольшая установка Wordpress, которая, по всей видимости, не работает случайно. Когда я это сделаю, я не могу подключиться по SSH, и мой единственный реальный вариант - выполнить жесткую перезагрузку с помощью администратора Rackspace Cloud. Это всегда решало проблему.

Я хочу знать, что мне следует делать, чтобы определить, что на самом деле вызвало проблему. Это тривиальный пример, но мы планируем разместить больше приложений на Linux в следующем году или около того, и я хочу сказать, что мне комфортно решать проблемы более научным способом, чем «отключите его и снова подключите. . "

С чего мне начать? Я открыт для книг, сообщений в блогах, вопросов о сбоях сервера, видео, семинаров, занятий в колледже, всего чего угодно.

Спасибо!

Начните со сбора статистики, чтобы увидеть, есть ли какая-либо взаимосвязь между зависаниями и системной активностью. вы можете использовать, например:

  • сар - статистика на основе чистого текста
  • Мунин - для простого получения графиков времени
  • кактусы - вроде мунин + многое другое, в вашем случае может быть слишком много

без такой статистики вы в значительной степени слепы, они также удобны, когда вы хотите провести некоторое планирование мощности или просто хотите увидеть, есть ли какие-либо заметные шаблоны / аномалии в поведении вашей системы.

начните с мониторинга [у вас будет больше всего "из коробки" с munin]:

  • средняя нагрузка
  • использование процессора / ожидание io
  • обмен активности
  • количество обслуженных HTTP-запросов
  • сетевой трафик
  • свободное место на диске на каждом разделе
  • ответ ping на шлюз по умолчанию / некоторую точку отсчета в Интернете
  • количество [моих] sql запросов

Лучше всего, что ваша машина меняет местами, смерть / застревание из-за медленного доступа к диску, но я могу ошибаться.

такие вещи, как полное зависание системы, вероятно, не оставили много следов в ваших журналах, но в других ситуациях - всегда стоит проверять содержимое системного журнала или журналов конкретных приложений - может быть, у вас где-то закончилось место? может что-то произошло?

Это общий рецепт, работает не только в linux:

Выявление проблем в следующем порядке:

  1. проблемы удаленного входа в систему:
    1. сетевые проблемы
    2. проблемы с демоном удаленного входа в систему (иногда для входа с помощью ssh может потребоваться несколько минут)
  2. проблемы с загрузкой (uptime;df -h;free -m)
  3. читать логи (они в /var/log/. Системные журналы /var/log/messages, /var/log/syslog. В вашем случае вас могут заинтересовать /var/log/apache)

Если вы жестко перезагрузили сервер, запишите время, когда вы это сделали. Так что вы можете проверить журналы непосредственно перед этим.