MTTF, MTBF, MTBR и MTBF для HP ProLiant Gen9

Я изучал MTTF, MTBF, MTBR и MTBF для наших серверов HP Gen9, работающих в нашей производственной среде.

Корень мой вопрос, волноваться стоит или нет.

Кажется, я не могу получить никаких хороших данных, так как каждый сервер имеет разное оборудование.

В моей последней компании у нас было около 2000 серверов dell r210 r410 r710. Я бы сказал, что в среднем у нас было около 5 серверов в день, которые имели какой-то сбой. Таким образом, около 0,25% сервера вышло из строя, и для повторного использования необходимо было заменить часть.

В моей последней компании все было настроено в паре HA, инфраструктуре N + 2, поэтому это не повлияло на производство. Мы смогли заменить серверы и продолжить работу

В моем текущем офисе у нас 9 серверов (HP Gen9, 56 виртуальных машин Hyper-V), у нас нет под рукой большого количества запасных частей, а также центр обработки данных не управляется, поэтому, если что-то умирает, мы должны ехать около 45 минут, чтобы заменить что-нибудь.

Мой технический директор или ИТ-менеджер, похоже, обеспокоены, у них было около 2,5 дней простоя в прошлом году, я предсказывал, что нам нужно кластеризовать серверы, но они не видят необходимости.

Здесь неправильное или правильное? Не знаю, что делать.

Я знаю, что это не моя ответственность, если что-то случится с техническим директором. Это очень маленькая компания, в которой есть технический директор, ИТ-менеджер, я (разработчик) и один сотрудник службы поддержки.

В целом опыт работы с производственной средой очень ограничен, многие вещи настраиваются на очень низком уровне, ни мой технический директор, ни ИТ-менеджер мало что знали о кластеризации до того, как я туда попал. Они были в середине проекта по установке DR без HA, против которого я предвидел, но проиграл.

Не беспокойтесь о показателях MTTF, MTBF, MTBR и MTBF ... почему они применимы к специфике вашей среды?

Серверы имеют внутреннее резервирование и могут работать очень стабильно. Но это зависит от вашей среды, массива / состава дисков, типов дисков, количества ОЗУ, конфигурации ЦП, тепловых характеристик, мощности и т. Д.

Использование некоторой формы высокой доступности жестяная банка уменьшают вероятность простоя и дают вам возможность перенести рабочие нагрузки в случае сбоя.

Это вопрос финансового и операционного риска.

Возможно, дополнительные затраты на переход от автономной системы к кластеру настолько высоки, что не имеют смысла для бизнеса? Возможно, 2,5 дня простоя (доступность ~ 99,3%) достаточно для вашей работы. Вам следует сосредоточиться на внешней защите и хороших резервных копиях. На все ваши системы HP Gen9 сегодня распространяется гарантия производителя, поэтому вы делать иметь доступ к деталям. Если у вас есть RAID, резервные блоки питания / вентиляторы и стабильное питание, вы охватите наиболее важные области.

Подумайте об этом с финансовой точки зрения, обозначьте риски и связанные с ними расходы и постарайтесь убедительно бизнес чехол для чего вы хотите.