Я использую HP DL360p Поколение 8. Мне нужен довольно надежный сервер, поэтому я использую RAID 1 с запасным диском, а также добавил дополнительный источник питания. Но следует ли устанавливать оперативную запасную память? Или это просто трата денег?
Это того не стоит. С ОЗУ с ECC и запущенными агентами управления HP довольно легко обнаружить плохую память. Обычно есть несколько шагов, чтобы вмешаться, прежде чем вы увидите серьезную проблему, которая влияет на работу. При стандартной поддержке замена оперативной памяти выполняется на следующий рабочий день, поэтому нет необходимости усложнять систему оперативной памяти, добавляя запасные модули DIMM.
Самая большая проблема с памятью HP ProLiant, которая у меня была в системе, в конечном итоге привела к сбою сервера после нескольких предупреждений ECC, которые произошли в течение недели. Пришли ошибки, сервер перезагрузился через ASR, и машина вернулась с отключенным неисправным DIMM. Это был HP ProLiant DL580 G4 система и журналы ошибок были следующие ...
0004 Repaired 22:21 12/01/2008 22:21 12/01/2008 0001
LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)
0005 Repaired 20:41 12/06/2008 20:43 12/06/2008 0002
LOG: POST Error: 201-Memory Error Single-bit error occured during memory initialization, Board 1, DIMM 1. Bank
containing DIMM(s) has been disabled.
В свое время я установил много Серверы HP ProLiant DL740 с массивом памяти в стиле RAID5. Таким образом, на сервере с ОЗУ на 16 ГБ фактически было установлено 20 ГБ в банках по 8 модулей DIMMS с возможностью горячей замены. На десятках серверов, которые я развертывал и эксплуатировал более 5 лет, у меня отказал только один модуль DIMM. Цифры ...
Редактировать:
Вы планируете использовать это в среде высокочастотной торговли. Вы спросили о задержке с резервной оперативной памятью на таком сервере. Обычно для приложений с малой задержкой я отключаю предварительную проверку памяти на своих хост-системах. Это рекомендация HP на странице 7 их Настройка BIOS сервера HP ProLiant для приложений с малой задержкой белая бумага. Это вопрос контроля и риска. У меня редко случаются отказы модулей DIMM. Вы больше заботитесь о скорости или отказоустойчивости? Вы не получите и того, и другого на аппаратном уровне ...
Вам очень легко решить - сколько будет стоить включение режима онлайн-резервирования или режима блокировки, а затем учесть, сколько будет стоить влияние потери обслуживания на основе памяти в течение срока службы сервера.
Мы не используем ни один из этих методов на наших серверах, где эти серверы входят в состав существующего отказоустойчивого кластера - Oracle RAC, vSphere и т. Д., Но НЕ ИСПОЛЬЗУЕМ его там, где наши серверы не могут быть объединены в кластер каким-либо практическим / экономичным способом.
Только вы можете решить, основываясь на соотношении затрат и выгод, но технология действительно работает, я точно знаю, что мы избежали двух полных отключений системы на одном из наших серверов за последние 2,5 года, и для нас инвестиции того стоили, ваши пробег может отличаться.
Я считаю, что это пустая трата денег. В памяти уже есть ECC. При этом, если ваш сервер будет использоваться 24/7 и может никогда есть время простоя, тогда это может иметь смысл. Если вы используете это для гипервизора, то будет просто удалить все виртуальные машины, выключить систему и заменить неисправный чип памяти.
По моему опыту, микросхемы памяти серверов высокого класса время от времени выходят из строя и нуждаются в замене.