Допустим, я настраиваю сервер на одной машине. Каковы типичные относительные показатели отказов аппаратных компонентов сервера, не зная о конкретных компонентах в нем (и не имея возможности посмотреть их MTBF)?
Точно так же, каковы рейтинги наиболее часто заменяемых компонентов на всех серверах в корпоративном использовании?
Что касается жестких дисков, многие люди неправильно понимают значение MTBF и думают, что накопитель с MTBF 100 000 часов прослужит в среднем 11,5 лет. Производитель имеет в виду, что в наборе большого количества дисков N, все в пределах их срока службы, этот диск будет записываться каждые 100 000 / N часов. Если у вас есть 100 000 дисков, каждый из которых имеет среднее время безотказной работы 100 000 часов, то вы должны ожидать, что диск будет выходить из строя в среднем каждый час.
Жесткие диски выходят из строя чаще, чем люди ожидают. Резервное копирование, резервное копирование, резервное копирование.
Все, что связано с движущимися частями, может выйти из строя, включая ленточные накопители, дисководы гибких дисков, вентиляторы и так далее. У меня вентилятор на видеокартах умер, что привело к смерти видеокарты. У меня был кристалл вентилятора блока питания, из-за которого умирало большинство частей компьютера. (С тех пор я никогда не создавал систему без дополнительных вентиляторов.) Ленточные накопители требуют особого ухода, иначе их срок службы значительно сократится. Это потому, что не только она движется, но и физический контакт головки ленты с ленточным носителем - по крайней мере, во многих типах ленточных накопителей. Слишком частая чистка накопителя с помощью обычных средств для чистки ленты приведет к износу головок.
У меня встроенные вентиляторы чипсета умерли, но пока без какого-либо эффекта. До сих пор у меня никогда не было кристалла вентилятора процессора, но я стараюсь обновляться достаточно часто, чтобы избежать этого с помощью обновлений. (ухмылка)
Я заменяю свои диски каждые несколько лет (в основном потому, что доступная емкость увеличивается так быстро), поэтому отказов жестких дисков было относительно немного. У меня было много отказов блоков питания - намного больше, чем я наивно ожидал для компонента, у которого нет движущихся частей, кроме вентилятора. Я предполагаю, что перебои в подаче электроэнергии являются причиной многих отказов источника питания.
До сих пор, за несколько десятилетий вычислительной техники, у меня ни разу не было сбоев ЦП, ОЗУ или материнской платы, если только не было разумной причины, например перегрева (умирают вентиляторы). Тем не менее, несколько марок материнских плат за прошедшие годы имели гораздо более короткий срок службы, чем ожидалось, из-за некачественных деталей, часто неправильно изготовленных конденсаторов, где питание поступает на материнскую плату.
Везде, где у вас есть подключенное соединение, может возникнуть сбой. У меня были компьютеры (в основном давно) из-за дешевых луженых разъемов. Олово окисляется и со временем соединение становится все менее надежным. В конце концов я отключил все, взял ластик на оловянные разъемы, чтобы удалить окисление, вставил все обратно и еще какое-то время работал. Золотые разъемы - выбор не зря.
Судя по тому, что я видел в корпоративной среде, когда мой домашний опыт был смешанным, компоненты, похоже, выходят из строя в таком порядке, от наиболее частого до наименее частого.
Не упомянуто выше, но вы должны ожидать все флеш-карты / карты памяти со временем умрут, в зависимости от частоты использования. Но это займет много времени, учитывая среднее использование большинства таких карт. Флэш-память «изнашивается» по мере использования, и ячейки памяти в конечном итоге выходят из строя.
Как ни странно, батареи.
У меня нет точных данных, но я заменил за свою жизнь больше вышедших из строя или недостаточно работающих батарей, чем любой другой компонент. Сюда входят источники бесперебойного питания, ноутбуки / ноутбуки, батареи контроллеров, батареи мобильных телефонов и, вероятно, многие другие.
Это привело меня к всегда запаситесь дополнительной батареей для ИБП серверной.
Все, что движется, а это в основном жесткие диски и вентиляторы, будет выходить из строя гораздо чаще, чем твердотельные компоненты. Блоки питания на втором месте, но на втором месте. Все остальное (ЦП, память и т. Д.) Довольно надежно ... что не означает невосприимчивость к сбоям, но определенно стоит беспокоиться после того, как у вас будут покрыты базы вашего диска / вентилятора / блока питания.
Тем не менее, лучше всего хранить запасные части на месте, если только вы не согласны с тем временем простоя, которое ваш поставщик оборудования решит предоставить вам.
Просто исследуя это сегодня для моей компании, я нашел краткое содержание одного из официальных документов Microsoft по адресу extremetech.com с этим графиком за период 8 месяцев:
Столбец с рейтингом послужил хорошей справкой для моих расчетов стоимости гарантий на оборудование Dell (вместо этого мы просто собираемся инвестировать в дополнительное оборудование).
Полный технический документ находится здесь: http://research.microsoft.com/apps/pubs/default.aspx?id=144888
Вы увидите больше проблем с микропрограммой и драйверами для оборудования, чем на самом деле увидите физических сбоев (по крайней мере, в начале срока службы устройства), поэтому сначала убедитесь, что они обновлены и протестированы.
Диски SATA обычно уходят первыми. SAS имеет тенденцию быть более надежным. (Хотя я слышал хорошие отзывы о последних дисках SATA 2)
Когда-то в списке были и вентиляторы ЦП; В последнее время я не могу вспомнить, когда в последний раз видел, как один перестает работать, но это возможно, особенно в пыльной среде.
Google опубликовал статью, «Тенденции отказов среди большого количества накопителей», о статистике отказов для широкого набора приводов. Главный вывод - диски выходят из строя сверх того, что предполагает MTBF. Диски наиболее подвержены сбоям в серверной.