Назад | Перейти на главную страницу

Что может вызвать ошибки памяти

У нас было три коробки за 3 дня, которые вышли из строя из-за ошибок памяти, две из которых вышли из строя с интервалом в 2 часа друг от друга. Во всех ящиках были такие ошибки, как:

ECC single bit correction warning rate exceeded, ECC single bit correction failure rate exceeded.

что довольно понятно. Мой вопрос: это случайная блокировка, с которой у них возникли проблемы через несколько дней, или это может быть что-то из-за окружающей среды? На перезагрузке висит одна коробка

Configuring memory ...Done.

Два других ящика подошли после перезагрузки. Я хочу быть научным в этом вопросе. Если DIMM неисправен, должен ли стресс-тест выявить проблему или проблема может возникать случайным образом?

Я провожу базовый тест, и пока все выглядит чистым. Разве стресс-тест не должен воспроизводить проблему?

Обновление: я тестировал memtest +, и он вернулся чистым.

Если несколько машин выходят из строя одновременно (или сообщают о значительном увеличении количества ошибок), это либо большое совпадение, либо плохое питание, либо высокая температура, либо радиация.

Вы захотите проверить мощность, температуру и найти ошибки, немного поменять местами модули DIMM и проверить, перемещаются ли ошибки вместе с ними.