У нас есть Dell PowerEdge 2950 под управлением Windows Server 2003 R2, Enterprise x64 с установленным Service Pack 2.
В последнее время мы столкнулись с множеством ошибок STOP, возникающих на этом сервере. К счастью, он используется как машина для отработки отказа, поэтому в настоящее время не влияет на нашу производственную среду. Ошибка, которая отображается в журнале сервера, следующая:
Event Type: Error
Event Source: System Error
Event Category: (102)
Event ID: 1003
Description:
Error code 000000000000009c, parameter1 0000000000000004,
parameter2 fffffadf90881240, parameter3 00000000f2000000,
parameter4 0000000000060151.
Пока лучшее, что мне удалось отследить, это то, что ошибка 9C - это своего рода общая аппаратная проблема. Остальные параметры не помогли сузить этот.
С момента ввода машины в эксплуатацию в прошлом году никаких изменений в оборудовании не производилось. У него есть двойная коробка, которая идентична (основная, для которой этот действует как аварийное переключение), которая не испытывает поведения. Последнее изменение программного обеспечения произошло 16.04.2009, когда было применено несколько обновлений безопасности. Синие экраны начали появляться 9.05.2009.
Есть ли какая-нибудь диагностика, которая может помочь с этой проблемой?
См. Ответ Kazna3 на http://www.d-a-l.com/archive/index.php/t-49205.html Он пишет:
Но во-первых, BSOD довольно старый. Ошибка 0x9C BUGCHECK связана с аппаратным обеспечением и хорошо известна. Все остальное касается процессора, это неисправность процессора или просто драйвера процессора. :(
Посмотрите здесь объяснение: 0x9C: MACHINE_CHECK_EXCEPTION (http://msdn2.microsoft.com/en-us/library/ms795775.aspx)
Microsoft советовала это, когда мы получали это с P4:
Шаг 1) Обновите BIOS (здесь используются аппаратные патчи, называемые обновлениями микрокода, если в вашем процессоре или AMLI есть ошибки, здесь они будут исправлены).
Шаг 2) Немедленно обратитесь к поставщику оборудования, так как это серьезная аппаратная ошибка.
Шаг 3) Замените оборудование, начиная с CPU.
Другими словами, ваше оборудование, скорее всего, вышло из строя. Возможно потемнение или сильный жар. То, что компонент является твердотельным, не означает, что он не может выйти из строя. Например: RAM постоянно выходит из строя - не зря она поставляется в антистатических пакетах.
См. Microsoft KB 939315 - драйвер storport может вызвать это ..... вы видели ошибку при перезагрузке, выключении или просто во время работы?
У вас есть физический доступ к машине? Когда это происходит, на ЖК-дисплее состояния отображается код ошибки или он кажется незаметным?
Если у вас установлен OpenManage, вы уже в выигрыше. Проверьте журналы OpenManage, чтобы узнать, не зарегистрированы ли в нем какие-либо аппаратные ошибки. OpenManage также включает в себя довольно полнофункциональный диагностический пакет. Проверять, выписываться http://www.dell.com/downloads/global/power/ps1q06-20050259-Thathireddy.pdf для объяснения его использования. Служба поддержки Dell обычно предлагает вам выполнить пару диагностических тестов CLI, поэтому, возможно, лучше связаться с ними.
В качестве общего шага (и чтобы служба поддержки не просила вас сделать это), обновите BIOS и встроенное ПО BMC для управления встроенным сервером.
Замените процессор, если у вас есть запасной.
Кроме того, это может показаться странным, но если у вас установлен DRAC, удалите его. У меня был 2850, который выдавал коды ошибок процессора (E07F0), зависал случайным образом и иногда не загружался. Замена DRAC исправила это, и с тех пор проблем не было.
Если ничего из этого не работает, пора позвонить в Dell. Это на 100% ниже уровня ОС.