У нас есть Dell PowerEdge R820 под управлением VMware ESXi, в котором за последние два месяца было несколько ошибок ЦП. Первоначально он имел IERR на CPU1, а теперь показывает ошибки проверки CPU для CPU3. Я поменял местами CPU3 -> CPU2 и CPU1 -> CPU4, чтобы увидеть, будут ли ошибки следовать за процессорами вокруг. После замены сервер был включен примерно 72 часа, прежде чем я выполнил еще один DSET, и аппаратных ошибок больше не было. Я хочу провести стресс-тест процессоров и памяти в течение примерно 24 часов, чтобы убедиться, что он сможет справиться с нагрузкой, когда мы перейдем к производству. Возможно, процессоры каким-то образом были перемещены во время доставки (незадолго до того, как мы начали получать первые ошибки).
Проблема в том, что я не знаю никаких инструментов стресс-тестирования для моей конкретной настройки. Я пробовал использовать взломать но он не загрузится правильно. (Зависание при загрузке sb_edac). Есть ли инструмент, который вы можете порекомендовать использовать для стресс-тестирования R820 (Intel Xeon e5-4600) под управлением VMware ESXi?
В этом случае вы можете просто загрузить live-CD с Linux или аварийный компакт-диск, содержащий stress
инструмент (я предпочитаю PLD Linux диск) и оставьте сервер в петле.
Однако я бы сильно полагался на поддержку Dell и заменил системную плату / процессоры и / или оперативную память. Сервер не здоров! Отладка такого рода вещей может оказаться неэффективной по времени.
Дамп системы ESXi снимали? Журналы поддержки?