У нас было три коробки за 3 дня, которые вышли из строя из-за ошибок памяти, две из которых вышли из строя с интервалом в 2 часа друг от друга. Во всех ящиках были такие ошибки, как:
ECC single bit correction warning rate exceeded, ECC single bit correction failure rate exceeded.
что довольно понятно. Мой вопрос: это случайная блокировка, с которой у них возникли проблемы через несколько дней, или это может быть что-то из-за окружающей среды? На перезагрузке висит одна коробка
Configuring memory ...Done.
Два других ящика подошли после перезагрузки. Я хочу быть научным в этом вопросе. Если DIMM неисправен, должен ли стресс-тест выявить проблему или проблема может возникать случайным образом?
Я провожу базовый тест, и пока все выглядит чистым. Разве стресс-тест не должен воспроизводить проблему?
Обновление: я тестировал memtest +, и он вернулся чистым.
Если несколько машин выходят из строя одновременно (или сообщают о значительном увеличении количества ошибок), это либо большое совпадение, либо плохое питание, либо высокая температура, либо радиация.
Вы захотите проверить мощность, температуру и найти ошибки, немного поменять местами модули DIMM и проверить, перемещаются ли ошибки вместе с ними.