Моя машина с Windows Server 2008 R2 x64 дважды за последний месяц отображалась синим экраном. В обоих случаях сообщенной причиной STOP была ошибка MEMORY_MANAGEMENT, а значение параметра 1 было 41790 («Произошла неизвестная ошибка управления памятью», согласно официальная документация).
Это совершенно новый компьютер с 4 ГБ ОЗУ, на котором работают IIS и SQL Server 2008. Рабочая нагрузка очень легкая.
Есть идеи, что может быть не так? Каковы наиболее частые причины такого рода неисправностей? Какие диагностические стратегии вы бы использовали?
Спасибо!
редактировать. Я провел несколько тестов памяти на машине, как было предложено. Все тесты прошли, никаких проблем не обнаружено. Недавно мы внесли некоторые изменения в задержку загрузки в BIOS, чтобы у RAID-контроллера в машине было время инициализировать все диски до того, как сервер попытается найти ОС, и с тех пор мы не видели синего экрана. Может это было так?
Я бы побежал мемтест чтобы полностью проверить вашу оперативную память на наличие проблем с оборудованием.
Это может быть вызвано неисправными картами памяти, неисправностями материнской платы и проблемами с драйверами.
Сообщите нам марку и модель вашего оборудования, и мы сможем предложить вам конкретные инструменты и методы для устранения неполадок.
Прежде всего, я хотел бы проверить, что с вашими драйверами все в порядке. Если у вас сервер HP, и вы собираете его с компакт-диска smartstart, драйверы должны быть кошерными, и их можно (предварительно) исключить.
С другой стороны, если вы загрузили и установили все драйверы вручную или используете драйверы Windows по умолчанию, обновите их.
Когда у вас закончатся простые тесты драйверов, запустите стресс-тест ОЗУ. Опять же, ваш поставщик может предоставить инструменты для этого (HP находятся на компакт-дисках, поставляемых с сервером). У некоторых производителей есть встроенный тестер в меню BIOS.
Если оба эти решения окажутся пустыми, опубликуйте дополнительную информацию об оборудовании и методе сборки, и мы сможем взять ее оттуда.
Это определенно похоже на неисправный модуль, плохо установленный модуль или производственный брак. Это может даже быть признаком того, что на вашем сервере есть проблема с охлаждением, хотя обычно это приводит к сбою других вещей, а не RAM. Также существует вероятность того, что кто-то неправильно сконфигурировал настройки BIOS, поэтому на всякий случай стоит проверить их на соответствие рекомендациям производителя сервера относительно типа и количества установленной оперативной памяти.
Я устанавливаю много серверов и всегда следю за тем, чтобы Memtest86 + прогореть (24 часа или больше), прежде чем я подпишусь на любом из них. За пару лет я видел сбои в двух отдельных партиях серверов (из примерно 50), оба из которых были проблемами контроля качества производства (IMO), поэтому я не удивлюсь, если вы увидите это в результате дефекта.
Да, и с современным оборудованием убедитесь, что вы используете Memtest86 +. Оригинальный Memtest86 все еще существует, но он не готов к тестированию оборудования текущего поколения с большим количеством оперативной памяти.