В настоящее время мы работаем со всей нашей средой и отключаем все способы автоматической перезагрузки сервера HP. Это произошло в ответ на массовый сбой, из-за которого наши серверы начали зависать, что привело к отключению обслуживания нескольких миллионов клиентов. Запрос от «наверху» заключается в том, чтобы серверы были выключены, но не перезагружались до тех пор, пока человек не сможет вручную вернуть их в онлайн, когда «берег свободен» (у нас есть несколько географически избыточных сайтов).
Пока что я определил следующие возможные причины:
Однако я предполагаю, что существует еще одна конфигурация, которая применяется, когда один из датчиков сервера проходит критический порог, например, если датчик температуры окружающей среды превышает 40 градусов C. Это должно полностью выключить хост, но я не уверен, где Конфигурация заключается в отключении автоматической перезагрузки после падения температуры окружающей среды. Или это тоже контролируется HP ASR?
Я просто хочу убедиться, что нет никаких забытых мной сценариев, которые могут укусить нас в задницу в процессе производства.
Любая помощь будет оценена.
Самый чистый подход к этому - контролировать свое окружение.
Пороговые значения температуры окружающей среды для этих серверных платформ равны хорошо задокументированы.
Сосредоточьтесь на поддержании вашего предприятия и окружающей среды в пределах этих пороговых значений. (повторяться?)
Если у вас есть описанное количество клиентов, эта задача ложится на ваши объекты и / или команду центра обработки данных, верно?
На уровне локального сервера ваш единственный другой параметр - это BIOS. Тепловое отключение вариант.
Если у вас возникают проблемы такого типа, они редко возникают внезапно и неожиданно… по крайней мере, до такой степени, что у вас есть время для автоматического отключения питания затронутых систем через МОТ.