Назад | Перейти на главную страницу

Как отследить причину сбоя Windows Server 2008?

У меня Windows Server 2008 работает под управлением VMware.

В последнее время он начал вылетать примерно каждый день, при постоянной 100% загрузке ЦП и отсутствии ответа в графическом интерфейсе.

Есть ли пошаговый метод определения источника этой проблемы?

Какие журналы мне посмотреть?

p.s. Проблема возникла примерно в то время, когда я пытался удалить Acronis, и она отображалась синим экраном. Однако я не уверен, что текущие неисправности вообще связаны с Acronis.

Вы также можете использовать «Монитор надежности и производительности», доступный в Windows Server 2008.

Как вы можете видеть ниже, он автоматически ведет учет надежности сервера и присваивает ему «оценку надежности» из 10. Эта оценка начинается с 10 и падает, если на сервере возникают какие-либо сбои или неожиданные отключения.

Он даже записывает, какие программы и когда были установлены, чтобы вы могли определить, не вызывает ли установленная программа больше ошибок.

Вы также можете настроить его для непрерывного ведения журнала использования ЦП программами, чтобы видеть, какая программа вызывает 100% загрузку ЦП.

Если есть аварийный дамп, например c: \ windows \ memory.dmp, вы можете использовать WinDbg проанализировать это. Обычно вы хотите поискать сторонние драйверы в дампе. Пошаговые инструкции можно найти Вот.

У вас есть два варианта:

  • Посмотрите записи, чтобы попытаться выяснить, что вызывало прошлые проблемы
  • Ищите признаки того, что может привести к скачкам загрузки ЦП, чтобы попытаться воспроизвести проблему.

Журналы - хорошее начало для того, чтобы оглянуться на историю системы, если вы знаете время, когда начинаются проблемы или журналы достаточно тихие, чтобы вы могли заметить закономерность, ведущую к привязанному процессору. Если системный BSOD, вы можете закинуть dmp в windbg.

Если вы ищете вещи, которые могут привести к скачкам загрузки ЦП:

  • Обозреватель процессов от sysinterals: ищите странные процессы или открытые дескрипторы файлов или сетевых ресурсов, которые больше не существуют. Это может указать вам правильное направление для повторения проблемы.
  • Монитор надежности и производительности Windows / Perfmon: вы можете увидеть, как каждый процесс действует в отношении использования диска / процессора / памяти / сети, а также сотни других счетчиков. Они могут дать вам подсказку о том, что происходит с виртуальной машиной, прежде чем это произойдет.

Как только у вас будет хороший кандидат на решение проблем, вы можете включить Process Monitor из sysinternals. Он будет сбрасывать каждое взаимодействие с файлом и реестром, которое каждый процесс в системе выполняет в реальном времени. Его даже можно настроить для загрузки при загрузке и захвата всего, пока вы не запустите графический интерфейс в следующий раз (имейте в виду, что это ОЧЕНЬ много данных, поэтому рекомендуется только в том случае, если вы можете быстро воспроизвести проблему после загрузки)

Есть куча кроличьих нор, которые могут быть устранены анализом первопричин, не стесняйтесь сообщить нам, как это происходит.

Журнал системных событий. Журнал событий приложения. Погуглите сообщение BSOD. Проверьте целостность диска с помощью chkdsk.

Если это синий экран, проверьте файл минидампа: http://support.microsoft.com/kb/315271

... это сообщит вам (обычно) драйвер или часть программного обеспечения, которые привели к сбою.

2009-07-06 - Я думаю, это жесткий диск.

Я выполнил chkdsk, и он вылетел с теми же симптомами, что и раньше, на полпути через chkdsk. Я использую твердотельный накопитель (SSD), «SSD PQI DK9128GD6R000A03 128 ГБ SATA 2.5», с MTBF 1500000 часов. Несмотря на то, что наработка на отказ составляет 133 года, похоже, что он умер после 2 недель или нормального использования! Чтобы проверить свою теорию, я скопировал файлы VMware на стандартный жесткий диск. Запустил chkdsk, и это сработало отлично. Я посмотрю, выдержит ли система неделю безотказной работы, и если это произойдет, я могу официально объявить свой PQI SSD .

2009-07-07 - Система снова вылетела. Вернуться к доске для рисования.

2009-07-08 - Сделан откат еще на 20 дней до того, как я установил SSD. Посмотрим, вылетит ли он снова (да).

2009-07-09 - удален OpenVPN, обновлен до последней версии Skype, обновлен до SQL 2008 до SP1, удален TeamViewer. Посмотрим, произойдет ли сбой снова (это было в середине резервного копирования Acronis).

2009-07-09 - подозреваю, что объем виртуальной памяти, доступной машине VMware, на которой работает сервер, слишком мал, на данный момент у меня он составляет 4 ГБ. Увеличение его (это не дало эффекта).

2009-07-09 - обнаружил, что если контейнер VMware, работающий под управлением Windows Server 2008, выйдет из строя со 100% загрузкой ЦП, и я приостановлю / перезапущу его, он отключается и возобновляет работу! Это, как правило, указывает на проблему с VMware или ее ОС (которой является XP), а не на проблему в самой Windows Server 2008. Теперь очень близко к сути проблемы.

2009-07-09 - Windows Server 2008 аварийно завершает работу только тогда, когда ОС хоста находится под очень большой нагрузкой. Увеличено количество процессоров, которые он может использовать, до 2 процессоров, похоже, это устранило проблему.

В заключение:

  1. Первоначальная проблема была вызвана неисправным жестким диском с поврежденными секторами (на самом деле это был SSD 128 ГБ от PQI - не ожидал, что твердотельный накопитель (SSD) выйдет из строя через две недели после покупки, но этот отказал).
  2. Следующая проблема была вызвана высокой нагрузкой на ОС хоста, на которой работала VMware. Исправлено за счет выделения большего объема ОЗУ и увеличения размера файла подкачки.
  3. Если это произойдет снова, у меня есть обходной путь (просто приостановите / перезапустите VMware v6.5, чтобы «разморозить» Windows Server 2008, работающий внутри него).

Проблема решена, спасибо, ребята!

Вылетает ли он ровно каждые 24 часа (в одно и то же время каждый день)?

Если это так, возможно, существует запланированный процесс, который вызывает сбой.

Не могли бы вы объяснить, что вы имеете в виду под сбоем, сталкивается ли сервер с BSOD или он просто зависает на 100% ЦП.

Для устранения неполадок вы можете сделать журнал сервера на сервере системного журнала, запускать через определенные промежутки времени список сценариев, обрабатывает их использование ресурсов, записывая свои выходные данные в общий сетевой ресурс.

Если сервер заставляет bsod, попробуйте поискать в Google код ошибки, упомянутый в bsod.

Кроме того, возможно, удаление acronis оставило журнал ошибок с некоторой информацией в папке установки.