Назад | Перейти на главную страницу

Исследование потенциального сбоя ЦП

На сервере Ubuntu, который я использую для вычислений, я недавно заметил, что некоторые программы с расширенным ЦП (GUROBI, CPLEX) часто дают сбои.

В ходе переписки с техподдержкой соответствующих программ мне сказали, что это может быть аппаратная проблема.

Администратор сервера провел подробный тест памяти, и выяснилось, что с модулями RAM все в порядке.

Следовательно, я использовал инструмент mprime для тестирования ЦП, и следующие две строки появляются несколько раз во время выполнения стресс-тестов:

[Рабочий № 4, 18 октября, 18:47] ФАТИЧЕСКАЯ ОШИБКА: округление составило 0,498046875, ожидалось меньше 0,4 [Рабочий № 4, 18 октября, 18:47] Обнаружен аппаратный сбой, обратитесь к файлу stress.txt.

Сам по себе файл stress.txt не содержит подробных сведений о том, что может быть причиной этой ошибки, поэтому я хотел бы спросить, знает ли кто-нибудь здесь, что может быть причиной этой проблемы? Есть ли какой-нибудь другой тест, который я мог бы провести, чтобы решить проблему еще больше?

Температура системы (и всех ядер) была нормальной во время всего стресс-теста (+ 69,0 ° C (высокая = + 80,0 ° C, критическая = + 98,0 ° C)), рассматриваемый ЦП является непростым. Процессор Intel Core i7-2600K @ 3,40 ГГц и никаким образом не разгоняется и не модифицируется.

Также интересно, что если я запускаю mprime только для нагрузки процессора, все тесты проходят нормально. Ошибка возникает только тогда, когда я позволяю mprime нагружать ЦП + ОЗУ.

mprime не дает ложных срабатываний, поэтому вы можете предположить, что у вас проблема с оборудованием. Вы хотите по очереди заменять компоненты заведомо исправными и запускать тот же тест. Я бы начал с оперативной памяти (несмотря на прохождение memtest), затем источника питания, затем процессора, затем материнской платы.

Если у вас нет запасной системы или доступа к совместимым деталям, вы можете попробовать несколько вещей, но вы можете не найти точной причины. Сначала убедитесь, что все вентиляторы вращаются свободно. Во-вторых, проверьте температуру блока питания, а также VRM и PCH на материнской плате. Если на вашем сервере нет датчиков для них, заземлитесь и дотроньтесь до них пальцем. Они могут быть горячими, но не такими, чтобы на них нельзя было оставить палец. В-третьих, удалите все модули ОЗУ, кроме первого слота (как указано на материнской плате), и, если тест по-прежнему не работает, замените его одним из тех, которые вы удалили. Если два или более выйдут из строя, можно смело предположить, что дело не в ОЗУ.