Назад | Перейти на главную страницу

Случайные серверы в ферме Citrix внезапно показывают синий экран (в основном 0x0000008e и 0x0000007e)

Я отвечаю за ферму Citrix Presentation Server 4.5. Начиная с пятницы, 30 ноября, мои серверы начали случайно вылетать. На данный момент мы испытали 80 сбоев, поэтому очевидно, что это становится для нас все более серьезной проблемой. У меня более 12 лет опыта работы с ИТ, поэтому я знаю разницу между 0 и 1, но мне трудно это исправить.

Мы отменили все недавние изменения, которые я мог придумать для разных групп серверов, но все группы по-прежнему дают сбой. У меня нет навыков интерпретировать дампы памяти, чтобы найти виновника.

Любая помощь приветствуется. Я также могу предоставить ссылки на дампы памяти ядра или вывод WinDbg, если это необходимо.

Спасибо!

Описание проблемы

Большинство возникающих ошибок STOP:

Мы также видим несколько 0x0000000a IRQL_NOT_LESS_OR_EQUAL (3%).

Для проверки ошибок 0x0000008e и 0x0000007e код исключения 0xc0000005 (Нарушение доступа). При открытии файлов дампа в WinDbg большинство деталей точно такое же, для всех проверок ошибок 0x0000008e и 0x0000007e соответственно:

0x0000008e

0x0000007e

Около 30% сбоев происходит между 17:00 и 19:00, что заставляет меня думать, что это происходит чаще во время выхода из системы. Но опять же, только ~ 15% приходится на период с 15:00 до 17:00.

Краткое описание фермы

У нас была аналогичная проблема с более старой версией Citrix (PS4), связанной с драйверами HP Print. Мне пришлось очистить всю партию перед повторной установкой подходящих, и, похоже, проблема с синим экраном исчезла. Также интересно узнать об «автоматическом удалении неутвержденных драйверов каждую ночь». Если вы убираете неутвержденные каждую ночь, почему вы вообще разрешаете их устанавливать? Вы можете остановить их установку в политиках Citrix. Думаю, это в разделе Печать -> Драйверы -> Автоматическая установка собственного драйвера принтера (не устанавливается автоматически)

В итоге мы применили пакет обновления 7 для PS 4.5 (который не был установлен, потому что он ранее нарушал надежность сеанса для нас) и ряд исправлений после выпуска R07.

Кроме того, мы заменили новейшую бета-версию UPHClean 2.0, от которой Microsoft с тех пор отказалась как от отдельного компонента (все еще встроенного в более поздние версии Windows), на более новую UPHClean 1.6g.

С тех пор ферма работает стабильно, но до сих пор остается загадкой, почему весь ад внезапно развалился без каких-либо серьезных изменений.