Назад | Перейти на главную страницу

Что я могу сделать, чтобы определить основную причину зависания / зависания сервера Windows?

Несколько недель назад мы установили здесь новый сервер, за управление которым я неформально отвечаю.

Практически все работает отлично, за исключением одного: время от времени он зависает без предупреждения.

Некоторые факты об этом зависании:

Некоторые дополнительные факты о машине / среде:

Я не жду здесь простых ответов. Что бы я хотел знать его я могу методично Определите основную причину этой проблемы, будь то неисправная служба, неисправное оборудование или что-то еще.

Могу ли я настроить какой-либо вид ведения журнала, который поможет мне разобраться в этом? Любая аппаратная диагностика или удаленный мониторинг? Все, что я могу сделать, чтобы помочь мне узнать, что на самом деле происходит, или, по крайней мере, устранить то, что не неправильно?

Повторюсь, я действительно не хочу начинать рассуждать о возможных причинах и прибегать к методу проб и ошибок, потому что пройдет как минимум несколько дней, прежде чем я получу окончательные результаты. Я ищу решения надежно проследить проблему до ее источника.

Если в журналах вообще ничего нет и нет возможности воспроизвести проблему, у вас гораздо меньше работы, поэтому будет сложнее быть методичным, когда вы просите.

Если это оборудование от поставщика высшего уровня, запустите его диагностику. У IBM, Dell, HP есть диагностические пакеты, а также бесплатные пакеты мониторинга (Director, SIM и OpenManage соответственно).

В хронологическом порядке, когда это началось и что-то изменилось на сервере или рядом с ним до этого момента? Установлено новое оборудование (и / или драйверы), обновлено программное обеспечение AV, новая оперативная память? Вы сказали, что это новый сервер - он новый для вас или совершенно новый для организации?

Можете ли вы выполнить P2V в песочнице и посмотреть, сохраняется ли проблема?

Возможно, это связано с увеличением нагрузки - можете ли вы вызвать это, или предположить (или показать несколько графиков), чтобы увидеть, использует ли его больше людей в то время, когда это происходит?

Это довольно парадоксально, вы говорите, что у вас нет аппаратной диагностики, но вам нужен методичный способ продолжения ... аппаратная диагностика - это методический способ действовать при аппаратных сбоях.

В противном случае, если это программный сбой низкого уровня, где-то может быть (должен?) Дамп памяти, и Microsoft предоставит какой-нибудь инструмент для его анализа, хотя они не предоставляют много документации для понимания процессов низкого уровня, поэтому это может быть тупиком.

Может, должен был бы ... Давно я экспериментировал с такими штуками! Проблема обычно в том, что вы имеете дело с закрытым исходным кодом, так что вы практически сами по себе!

Может поддержка от Microsoft?