Назад | Перейти на главную страницу

Важность памяти ECC

Важны ли модули памяти ECC на некритичном сервере?

Я думал о том, чтобы купить себе игрушечный выделенный сервер для множества случайных, некритичных вещей. Спорадические перезагрузки - это не проблема. Я ищу одного провайдера, но цены безумно низкие. Их оборудование звучит как шутка для любой серьезной серверной коробки: настольные процессоры, ОЗУ без ECC, безымянное шасси, жесткий диск SATA без горячей замены и т. Д. (Ну, я думаю, цена это оправдывает).

Я считаю память ECC само собой разумеющимся на любом «серьезном» сервере, поэтому мне интересно, имеет ли это значение для «игрушечной» техники.

Данные, опубликованные ИТ-персоналом ЦЕРН (Целостность данных) предполагает, что количество ошибок, поступающих из ОЗУ, довольно мало. Вам все равно придется взвесить свои данные и стоимость оборудования.

Вы можете прочитать об этом подробнее на StorageMojo.

ECC RAM в основном помогает предотвратить ошибки, возникающие при чтении и записи из RAM. Вероятность того, что действительно есть ошибка, довольно мала, но не равна нулю. Я бы сказал, что если вы не делаете критически важные вещи, вы можете обойтись без ECC RAM - как я уже сказал, шансы столкнуться с ошибкой, которую предотвратит ECC, действительно очень мала.

Что такое некритичный сервер? Тот, который может потерпеть неудачу?

ECC RAM - это фундаментальный когда надежность памяти имеет решающее значение.

Две вещи растут с увеличением объема памяти:

  • зависимость программного обеспечения от памяти, особенно. серверное программное обеспечение (например, кеширование)
  • вероятность ошибки памяти (p = num_bits * p_bit_failure)

это презентация Intel по ECC сообщает эти факты:

  • Средняя частота ошибок памяти для сервера с памятью 4 ГБ, работающего круглосуточно, составляет 150 раз в год.
  • ~ 4000 исправляемых ошибок на модуль памяти в год
  • Разгон и возраст системы значительно увеличивают количество отказов
  • Повторяющиеся отказы обычны и происходят быстро (97% случаются в течение 10 дней после первого отказа) => лавинный эффект
  • Для сервера ECC со сроком службы от 3 до 5 лет вероятность отказа системы из-за неисправимой ошибки памяти составляет менее 0,001%.

Еще один недавний исследование WISC показывает, что ECC важен для этих систем ZFS:

ZFS не принимает никаких мер предосторожности при повреждении памяти: поврежденные блоки данных возвращаются пользователю или записываются на диск, операции файловой системы завершаются сбоем, и во многих случаях происходит сбой всей системы.

Важно отметить, что другие файловые системы так же чувствительны к этой форме повреждения данных, как и ZFS.

ECC - это то, что спасает вас от этих проблем, когда это возможно, а в критических случаях предупреждает вас об этом, пока не стало слишком поздно.

Это просто не так важно. Если вам нужно 99,999% времени безотказной работы, вы бы об этом беспокоились. В остальном вы будете перезагружаться чаще, чем будете получать ошибки памяти.

это исследование Google с 2009 года обнаружена частота ошибок от 25000 до 70000 ошибок на миллиард часов работы устройства на мегабит. Это означает, что для 8 ГБ (использованной) ОЗУ было примерно от 1,7 до 4,8 ошибок в час.

Bitflips - это то, что существует, и его не следует игнорировать, если целостность данных имеет значение.

В вашем случае (случайные, некритические вещи), вероятно, будет излишним.