Назад | Перейти на главную страницу

unattended memtest: практично ли это?

Я буду создавать кластер среднего размера (20 узлов, расширение будет позже), и по разным причинам использование стандартного оборудования должно дать мне значительную экономию средств (даже с учетом более коротких рабочих циклов / сбоев). Меня беспокоят постоянные сбои в памяти.

Очевидное решение здесь - регулярно запускать memtest на каждом узле, но это создает 2 проблемы:

Практично? Не регулярно в рамках текущих операций. Ожидание простоя для записи в память не обнаруживает переходных битов. И вводит значительную задержку в обнаружении постоянных отказов. Кроме того, если вы имеете в виду memtest86 + с открытым исходным кодом, существуют проблемы интеграции, такие как нет поддержки UEFI и автоматизация отчетности об отказах.

Вместо этого приобретите оборудование с достаточными функциями RAS, а именно память ECC. затем ваш сервер может сообщать вам о сбоях памяти.

Такие ошибки могут быть не очень распространенными. Серверы без ECC не сразу откажутся и не сгорят, это выбор. Однако часто надбавка к цене невелика, если на вашей модели сервера даже есть выбор в пользу ОЗУ без ECC.

Могу я узнать, какое приложение вы запускаете и что вы подразумеваете под постоянной неисправностью памяти?

AFAIK, многие современные приложения действительно хорошо работают в ОЗУ без ECC, и большая часть сбоев связана не с проблемой ECC, а с нехваткой памяти или ошибкой.

И сканирование ОЗУ для выявления ошибки очень неэффективно. Первое место, где вы можете определить потенциальную ошибку, - это файл журнала, только если вы обнаружили симптом, вам нужно будет запустить memtest.

Я думаю, что было бы хорошо сначала прояснить вашу логику, стоящую за этим, чтобы найти лучшее решение, что вы думаете?

Теперь у меня есть ответ на первую часть моего вопроса. Дистрибутив grub включает что-то под названием грубость. Следовательно, если Linux является моим по умолчанию в grub, я могу попросить grub запустить memtest один раз (и после этого он вернется к значению по умолчанию).

Пока что, похоже, мой единственный вариант для второй части - поискать машину. оставаться офлайн (то есть не под управлением Linux) после ожидаемого завершения запланированного тестирования памяти.