Я потратил много времени, пытаясь выяснить, когда и как сервер Dell PowerEdge (в моем случае у нас есть несколько R210II и R620 с iDRAC) справляется с перегревом. Я не хочу ждать, пока процессор самосохранится, и в идеале сам сервер должен справляться с высокими температурами в течение определенного периода времени, выдавая собственную команду IPMI ОС для отключения питания до достижения критического порога. например на 55C, введите команду IPMI в ОС, если сервер достигает 80C, отключите вилку и т. д.
Проблема в том, что во всей документации Dell неясно, когда и как происходит выключение сервера из-за перегрева.
Мой вопрос в том, поддерживает ли Dell такое плавное отключение управления температурным режимом, или это мелкий шрифт или нечеткая документация о критической температуре, когда она просто отключает свою вилку? Требуется ли Dell OpenManage для поддержки этого?
Я действительно хотел бы избежать необходимости запускать выделенный сервер управления, подключенный к различным сетям (пытаясь избежать моста между сетями через единую точку управления), чтобы удаленно управлять завершением работы таким образом. Это будет единственная точка отказа, которая также подвержена тем же жестко запрограммированным или негибким тепловым условиям, что и сами мои серверы.
В моих R620s есть iDRAC. Я включил их для функций удаленного управления iDRAC, но на данный момент я разочарован, что iDRAC не может с этим справиться. Его тепловые настройки ограничены управлением скоростью вращения вентилятора, а ужасная документация и справка по системе на самом деле не говорят, когда может произойти отключение.
Мы очень ценим любые советы из реального мира! Спасибо.
Спасибо Томасу за то, что он нашел ссылку на документ OpenManage. OMSA, которую необходимо где-то установить, а затем использовать удаленно или локально для подключения к BMC, в конечном итоге устанавливает IPMI PEF. Я обнаружил, что Dell производит комплект для развертывания, который в основном содержит все инструменты, которые OMSA использует для этого.
Комплект разработчика Dell OpenManage можно найти здесь:
Версия для Linux (кажется, только 64-битная, раньше была 32-битная версия, но я не могу ее найти) включает в себя загрузочный образ для установки прошивки и т. Д., Но также получает приглашение консоли со всеми инструменты развертывания доступны. Загрузите его, запишите, вставьте в сервер и загрузите. В командной строке у вас есть доступ к команде syscfg.
Документацию можно найти здесь, но вам нужно справочное руководство!
http://www.dell.com/support/Manuals/us/en/19/Product/dell-opnmang-dplymnt-toolkit-v4.2
Используя команду syscfg, вы можете настроить PEF, чтобы BMC запускал действие, когда будет выдано обычное предупреждение IPMI. Текущее использование будет выглядеть так:
syscfg pcp --filter=tempfail --filteraction=powerdown
Теперь, когда IPMI обычно сообщает о временном сбое, BMC выдает событие отключения питания. ОС должна быть проинформирована о событии через APIC и попытаться корректно выключить питание. За исключением этого, встроенные тепловые пороги сделают свое дело.
Если вы знакомы с ipmitool, вы также можете проверить (и, возможно, установить с его помощью PEF, но я не пробовал) новый PEF, который вы установили примерно так:
ipmitool <options> pef list
Если вы введете "Температура" с помощью grep, вы увидите что-то вроде этого: (невозможно C&P с консоли)
11 | active | 0x11 | Temperature | Any | Critical | Threshold | (0x01/0x0204),<LC,<UC | Alert,Power-off | 1
Power-off - это недавно добавленное действие PEF.
Я не понял, как правильно установить порог температуры с помощью инструментов Dell, НО я использую ipmitool!
ipmitool <options> sensor list | grep Ambient
Ambient Temp | 24.000 | degrees C | ok | na | na | 3.000 | 8.000 | 42.000 | 47.000 | na
Затем вы можете установить новый порог на основе использования параметра порога датчика ipmitool. Вот пример, где я изменяю верхний критический порог на 48 ° C:
ipmitool <options> sensor thresh "Ambient Temp" ucr 48.000
Вы можете попробовать инициировать событие верхней критической температуры вручную, но, похоже, оно вызывает только событие и не зависит от настроек действия фильтра PEF. (оформить событие 1 проще, чем вручную идентифицировать датчик и т. д.)
ipmitool <options> event 1
Что я сделал, так это установил температуру выключения на 25 ° C и отключил кондиционер в серверной на 5 минут с коллегой, пока мы все следили. Целевой сервер выключился сразу при 25C.
Лучшее, что я смог найти, было из ветка на форумах Spiceworks. Ответ от представителя Dell:
Есть много способов сделать это. Вы правы, что по умолчанию ни один из параметров плавного выключения не включен, но сервер выключится, если будет достигнут критический порог.
Вы можете установить действия для оповещения в iDRAC / CMC. Вы можете настроить его на отключение при достижении температурного предупреждения или критического порога. Вы также можете установить события платформы или действия предупреждений в OMSA. Так же в OMSA есть раздел под отключение по тепловому. Вы также можете настроить его на выполнение действия. Кроме того, вы можете настроить OMSA для выполнения программы при возникновении события. Вы можете использовать эту функцию для выполнения программы выключения в Windows.
Параметр «Отключение питания» в действиях по предупреждению - это плавное завершение работы. Я рекомендую вам установить его на выключение при достижении порога предупреждения. Если вы настроите его на критический порог, он может попытаться плавно завершить работу, а затем достигнет критического предела и выполнит принудительное завершение работы до того, как плавное завершение будет завершено.
Я также читаю официальный PDF-файл Dell относительно OpenManage с этим упоминанием о тепловом отключении:
Dell OpenManage Server Administrator (OMSA) позволяет администраторам устанавливать пороговые значения температуры, при которых серверы должны выполнять аварийное тепловое отключение.
Итак, ответ, похоже, будет: да, серверы Dell поддерживают плавное отключение при перегреве, и эту температуру можно настраивать. Вы можете использовать OpenManage Server Administrator на каждом сервере для внесения этих изменений (я считаю, что вы можете вносить эти изменения во время работы сервера). Вам не нужно устанавливать централизованный сервер управления OpenManage, хотя он может упростить множество других задач управления.
:РЕДАКТИРОВАТЬ:
Я должен добавить, что эти ответы являются общими для серверов Dell. Ничего особенного для перечисленных вами моделей серверов я не нашел.