Среднее время наработки на отказ может быть трудно интерпретировать, но существует множество статистических методов, которые вы можете использовать, если у вас есть достоверные данные.
Проблема в том, что больше никто не сообщает свои цифры наработки на отказ. (Во всяком случае, кроме производителей жестких дисков.)
Где делать ты найти данные MTBF для компонентов и серверов?
Почему MTBF не имеет значения
Среднее время наработки на отказ не так важно, как частота неисправимых ошибок. MTBF занимается полным выходом из строя детали, считыванием привода. Однако это число не имеет смысла, если единственный ошибочный бит вызовет панику RAID 5 и задействует горячий резерв.
Хотя среднее время безотказной работы для приводов профессионального и потребительского уровня за последние годы увеличилось на порядок, количество неисправимых ошибок осталось относительно постоянным. Эта скорость оценивается в 10 ^ 14 бит, поэтому один бит на 12 терабайт чтения для потребительских дисков SATA, источник.
Почему вы должны потерять сон из-за массива RAID 5
Итак, это только 6 проходов нового диска емкостью 2 ТБ. Сколько времени нужно, чтобы прочитать 12 ТБ данных? Намного меньше времени, чем MTBF для этого привода.
http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/
Что больше беспокоит, так это вероятность сбоя двойного чтения в массиве RAID 5, состоящем из дисков такого размера. Для массива RAID 5 емкостью 7 1 Тбайт вероятность второго сбоя чтения во время восстановления RAID составляет 50%.
Очень жаль, что люди думают, что значения MTBF неприменимы к сложным системам. Настоящая проблема (afaik) в том, что производители не имеют данных о MTBF для своих аппаратных модулей. Это цифры, которые по праву должны быть доступны. Делл говорит: «Dell больше не перечисляет конкретные значения MTBF для своих серверов». на самом деле ужасно! С таким же успехом они могут сказать: «Ну, наши вещи действительно недостаточно надежны для использования там, где требуется значение MTBF».
Предполагается, что инженер по надежности (или парень в шляпе RE) ограничит объем исследования доступности. Часто это ограничивается аппаратными модулями.
Что касается классификации того, что составляет отказ ... Вот почему мы проводим анализ FMECA.
Конечно, системы сложны, а режимы отказов включают сбои программного обеспечения, но это часто не входит в объем исследования. Нам нужны значения MTBF для оборудования. Попросите продавца предоставить это. Их техническая ответственность - предоставить это вам ... Если они откажутся или сделают шаг в сторону, отправляйтесь куда-нибудь, где есть серверы телекоммуникационного уровня с обязательными показателями доступности оборудования.
Я видел сообщения о MTBF на сайтах поддержки компании. Поговорите со своим продавцом или SE, чтобы получить информацию.
На мой взгляд, показатели MTBF стали инструментом продаж. Современное оборудование достигло состояния, когда значения MTBF практически бесполезны. Даже самые низкие из производителей с низким баллом производят оборудование, которое выдерживает любой разумный цикл обновления. Как вы заметили, никто не сообщает о показателях MTBF. Я считаю, что причина в этом.
К сожалению, MTBF не является практичным или надежным измерением для современных серверов. Вся концепция MTBF заключается в том, что если определенная модель / конфигурация используется многими в течение длительного времени, мы, вероятно, можем знать ее надежность.
Сегодня большинство из нас с радостью обменивают потенциальную дополнительную надежность на доказанную дополнительную производительность и энергоэффективность. Например, вы бы построили свои новые серверы на оборудовании, которому 18–24 месяца, только потому, что оно доказало свою надежность? или просто использовать процессоры последнего поколения с большим количеством ядер, мощностью и энергоэффективностью?
Кроме того, в отличие от телефонных систем старой школы, системы достаточно индивидуализированы и, конечно же, в значительной степени зависят от программного обеспечения. Насколько надежна версия BIOS x.xx или версия драйвера y.yyy? Последние исправления для ОС / БД / сервера приложений повышают стабильность или имеют ее снижение? Сколько серверов в мире на самом деле используют ту же самую смесь аппаратных версий и версий стека, что и вы?
Если вам нужна высокая доступность, вам в любом случае потребуется добавить избыточность в вашу систему (двойное управление всем, кластеризация, горячее резервирование, DRP, что у вас есть). Таким образом, относительная надежность каждого аппаратного компонента обычно не является существенным фактором, поскольку вы строите свою инфраструктуру, чтобы выдержать отказы отдельных компонентов. Просто живите с неопределенностью (надежность имеет обратную силу) и планируйте соответственно.
Я согласен с большинством других ответов: значения MTBF мне не нужны, и я никогда их не проверяю.
Единственное исключение - жесткие диски, но даже там я смотрю на MTBF очень грубо, и обязательно куплю более надежные диски «серверного класса», если будет выбор.