Назад | Перейти на главную страницу

Как долго / насколько сильно я должен тестировать процессор и память, прежде чем объявить, что все в порядке?

Один из наших ЖК-дисплеев Dell PowerEdge показывал «Ошибка проверки компьютера CPU 2», но я не мог найти в журналах ничего, касающегося MCE или «Ошибка оборудования». Я удалил сообщение, но мне хотелось прогнать машину через тяжелые предметы, чтобы посмотреть, смогу ли я снова заставить ее споткнуться.

Я использовал сценарий bash с бесконечным циклом, который выполнялся 64 раза (по одному для каждого ядра) в течение нескольких минут. Затем я использовал программу под названием «стресс», чтобы сделать то же самое с процессором и памятью. У меня вопрос: какова достаточная сумма, прежде чем можно будет сказать «хорошо, эта машина годна к работе»? Несколько минут? Час? Пока температура процессора остается в норме?

Если сервер находится на гарантии, попросите продавца заменить деталь.

Если на сервер не распространяется гарантия и деталь не подлежит замене, окончательный ответ будет субъективным.

Это сервер, который НЕ МОЖЕТ выйти из строя (например, работает жизнеобеспечение, обрабатывает финансовые транзакции в реальном времени)? Или это просто веб-сервер для фан-сайта щенков?

В любом случае, просто запустите сервер через любой процесс «записи», который у вас есть для нового оборудования.


Я добавлю: Если вы пришли сюда в надежде найти кого-то, кто подтвердит риск, связанный с оставлением этого сервера в производственной среде, ни один из наших ответов не должен быть истолкован таким образом, чтобы мы считаем приемлемым оставить сервер в рабочем состоянии как есть. КОТОРЫЙ это то, что вам нужно будет передать через процесс оценки рисков, который является внутренним для вашей компании. Никто здесь не может дать однозначного ответа «Запустите memtest и загрузите в течение x дней без ошибок, и вам гарантирован стабильный сервер» ...

Для памяти: не менее нескольких часов использования memtest86. Чем больше времени вы потратите на это, тем лучше. По моему опыту, все, что ниже 3 часов, совершенно ненадежно. Я бы сказал, пусть поработает хотя бы от 12 до 24 часов, чтобы быть уверенным.

Для тестирования ЦП вы можете запускать программы обработки первичных чисел, т.е. mprime или другие стресс-тесты, такие как компиляция огромного количества кода для проверки правильности вычислений. Чем дольше они работают, тем лучше.

Эти исправные ошибки по-прежнему не дают никаких гарантий. Если один из этих тестов не сработает, у вас, по крайней мере, есть способ воспроизвести.

Ошибка проверки машины, с другой стороны, выглядит так, будто вы действительно должны сообщить поставщику, даже если вы не можете ее воспроизвести. Ваша машина может нормально работать в течение недель и месяцев даже после тестирования, но в самый неудачный момент снова выйдет из строя.