Назад | Перейти на главную страницу

Сбой SBS 2011, причина неизвестна

У меня есть сервер SBS 2011, который несколько дней назад начал давать сбой. Эта проблема возникла в воскресенье вечером в 23:55 длинных выходных. В то время к серверу почти никто не обращался. Я не вносил никаких изменений в сервер уже несколько недель. Последние изменения были регулярными обновлениями от MS, которые не вызывали никаких проблем.

Когда он разбился, и он застрял в последовательности загрузки, где он отображал синий экран, пытаясь применить настройки компьютера. На синих экранах системы не указывается код ошибки, по крайней мере, я могу записать. Во время перезагрузки я подключаюсь с помощью Dell DRAC, поскольку сервер находится в помещении, к которому у меня нет физического доступа. Я вижу только самое начало сообщения об ошибке, но либо дополнительной информации нет, либо оно отключено от сеанса консоли.

Мне удалось без проблем перейти в безопасный режим и безопасный режим с сетью.

Я смог вернуться в Windows, как обычно, загрузив ее один раз, но я думаю, мне просто повезло, так как следующие 2 загрузки также отображались синим экраном в разделе «Применение настроек компьютера».

Я поставил галочку в MS, и мы работали над этой проблемой в течение 2 дней безуспешно. Я обращаюсь за помощью в надежде, что у кого-то есть идеи.

Я вернулся в Windows, как правило, с помощью Last Known Good Config, но после еще пары перезагрузок проблема вернулась. Перед сбоем системы в журналах системных событий или событий приложений нет ничего необычного, только информационные события.

Мы обнаружили странную проблему, при которой служба входа в сеть не запускалась (раньше такого не было). MS определила, что каким-то образом имя хоста компьютера было изменено в паре мест в реестре. Мы отключили службы Exchange, так как они также перестали работать из-за того, что служба входа в сеть не запускалась. После того как мы изменили параметры реестра обратно на фактическое имя сервера, служба входа в сеть снова запустилась нормально.

Думая, что проблема решена, мы начали перезапускать службы Exchange, а затем снова вылетели, когда примерно половина из них была запущена. Мы перезагрузились, затем запустили еще пару и снова вылетели.

Затем MS попыталась отключить сторонние драйверы и драйверы хранилища (те, которые не загружаются в безопасном режиме), но в этом состоянии сервер работал нестабильно. Затем мой инженер MS ушел на ночь.

Я попросил центр обработки данных провести полную диагностику оборудования, которое оказалось чистым.

Я снова отключил все службы Exchange, и с тех пор он не аварийно завершился.

Итак, есть идеи?

Не могу выбросить из головы мысль, что это связано с оперативной памятью. Этот сервер очень малоразмерен; у него 8 ГБ ОЗУ. Даже при отключенном Exchange 6,5 ГБ ОЗУ используются только для загрузки на рабочий стол. Сервер представляет собой Dell PE2950 с 1 четырехъядерным процессором (2,33 ГГц) и 3-х дисковым томом RAID 5 для сервера. Также есть автономный диск, который я использую для локального резервного копирования.

Я подумал, что когда службы запускались, а оперативная память отдавалась процессам, возникла какая-то проблема с физическим модулем или что файл подкачки заполнился и каким-то образом вызвал сбой. Это обоснованное рассуждение?

Другая мысль заключалась в том, что была изменена запись в реестре, что приводило к сбою службы входа в сеть. Имя сервера, которое появлялось в реестре, было общим, например WIN-67L5UNORI4I.

Я просмотрел журналы безопасности на предмет неудачных попыток входа в систему и обнаружил, что похожие имена компьютеров появляются со странных IP-адресов (Китай, Южная Корея, Бразилия, Германия).

Мог ли кто-то получить доступ и нанести какой-либо ущерб, из-за которого он вылетел?

Отключение автоматического перезапуска позволило мне увидеть экран ошибки BSOD. KERNEL_DATA_INPAGE_ERROR ... Техническая информация: STOP: 0x0000007A (0xFFFFF6FC4000A9D0, 0xFFFFFFFFC000000E, 0x0000000137CDF860, 0xFFFFF8800153A758 ... *** Ntfs.sys Дата - Адрес FFFFF8814fc5000, база данных FFFFF8814fc153CA, FFFFF881400153A

Обратите внимание: похоже, это происходило более одного раза при попытке запустить службу обмена rpcclientaccess. служба зависает при запуске, но создается процесс, который занимает все больше и больше оперативной памяти, а затем приводит к сбою сервера

Любой совет, который вы можете дать, будет отличным.

Спасибо!

Спасибо всем за участие.

Несмотря на то, что диагностика оборудования вернулась без ошибок, когда Центр обработки данных запустил их, это вводило в заблуждение.

Мы обновили прошивки на всех аппаратных устройствах. Как только сервер снова загрузился в Windows, я заметил, что один из дисков RAID-массива вышел из строя. Мы поменяли диск, и все проблемы исчезли.

Мне пришлось отремонтировать и перемонтировать обменную БД, но теперь она работает нормально.

Какая-то комбинация устаревшей прошивки и неисправного HD, кажется, здесь виновата.

Когда сервер запускался с автоматическими службами обмена, он пытался смонтировать БД, я предполагаю, что он получил доступ к части неисправного HD и вызвал его сбой.

Синий экран / BSOD наиболее частые причины:

  • плохая ОЗУ (запустите тестер памяти на несколько часов, чтобы проверить всю оперативную память)
  • другое неисправное оборудование (материнская плата или?)
  • повреждение драйвера // маловероятно

Воспользуйтесь автозапуском и попробуйте отключить все драйверы и службы, которые вам не нужны.

Однако в подобной ситуации, если очистка после автозапуска не справляется, наиболее частым решением является создание нового сервера. (новое оборудование, новая загрузка ОС ...)