У этого заказчика есть два новых сервера Dell PowerEdge R320 со следующей конфигурацией:
O.S. Windows Server 2012 R2, используемый в качестве контроллера домена; все прошивки и драйверы обновлены, а Windows полностью пропатчена; нагрузка на систему обычно очень низкая.
Внезапно один из серверов замедлился до ползания. И под «ползком» я имею в виду «даже окно не удалось за приличное время покрасить». Делать что угодно, даже щелкать правой кнопкой мыши и открывать контекстное меню, даже перемещая курсор вокруг, была мучительная боль.
На сервере не было необычной нагрузки: загрузка ЦП составляла 1-3%, использование оперативной памяти менее 4 ГБ, никаких пиков на диске или сети, вообще ничего.
Также не было никаких ошибок ни в одном журнале событий Windows (когда нам, наконец, удалось его открыть), и медлительность не прекращалась, когда сетевой кабель был отключен.
Перезагрузка Windows тоже оказалась бесполезной: после очень долгой загрузки система по-прежнему оставалась ужасно медленной.
И последнее, но не менее важное: не было сообщений об ошибках ни на дисплее передней панели системы, ни на экране во время POST.
В крайнем случае мы решили попробовать холодную перезагрузку и фактически отключили кабели питания перед перезапуском сервера. Это устранило проблему: система загрузилась нормально и возобновила полную производительность.
Однако остается вопрос: что тут случилось?!?
И, что более важно: как сделать так, чтобы этого больше не повторилось?
Имелась такая же проблема, после изучения журналов DSET, когда проблема присутствовала, а затем после исправления холодной загрузки, служба поддержки Dell заявила о скачке напряжения, сервер питался от APC 1500 кВА SmartUPS в то время.
Служба поддержки Dell рекомендовала «холодную» перезагрузку для сброса датчиков (питание отключено, удерживайте кнопку питания более 3 секунд).
Служба поддержки также предложила установить обновление iDrac до последней доступной версии 1.66.65 либо через Lifecycle (требуется перезагрузка), либо из системы Windows (не требуется перезагрузка).
Это произошло несколько недель назад, в первую неделю января 2015 года, проблема не вернулась.
ESM_Firmware_3F4WV_WN64_1.66.65_A00.EXE
6-ядерный ЦП Dell PowerEdge R320 24 ГБ ОЗУ 2 диска NLSAS по 1000 ГБ RAID 1
Это случилось с нашим Т320. Это был баг в биосе. Dell выпустила обновленную BIOS, и проблема была исправлена. Обходной путь - настроить BIOS следующим образом: В PowerEdge Bios измените профиль системы на Performance Optimized. Это отключит C-состояния и C1E. Инструкции: http://www.ponjavic.com/wordpress/2014/09/30/disable-dell-poweredge-m620-cpu-throttling/
Я бы начал с обновления всех версий прошивки до последних доступных, включая BIOS, iDRAC / Lifecycle Controller. Однако это, скорее, проблема с настройками энергопотребления и производительности в BIOS. Проверьте Настройка производительности и мощности документацию для серверов Dell 12-го поколения.
У меня 2 Win2K12-R2 T320 с таким же оборудованием, прошивкой и драйверами. Вчера стало мучительно медленно - не устанавливались обновления Windows за недели. После запуска DSET без аппаратных ошибок:
Технические специалисты Dell рекомендуют Зайдите в BIOS на T320, перейдите в настройки системного профиля и измените «Производительность на ватт» на «Производительность».
Перезагружен, сервер работает быстро, а производительность лучше, чем за последние месяцы.