У нас есть несколько серверов DELL 1950. Один из этих серверов имеет CentOS6.3 и перезагружается случайным образом, поэтому я подозревал, что это аппаратное обеспечение (журнал не создается). Остальные четыре сервера не перезагружаются случайным образом.
Мы запустили memtest86 + на пяти серверах, и на трех из них memtest86 + дает сбой (отображение нечетного и цветного экрана, как если бы видеокарта вышла из строя).
Я тестировал старый memtest86 (не +), и ни один из серверов не сломался. Я также протестировал другие утилиты для тестирования оперативной памяти, и ни один из них не отказал.
Кто-нибудь из вас, ребята, испытал это?
Если memtest дает сбой, высока вероятность того, что у вас плохая память. Попробуйте заменить память на исправных серверах и перезапустить memtest. Скорее всего виновата память. Вы также можете уменьшить объем памяти наполовину (если позволяет система; минимальные требования к памяти) и попробовать запустить memtest. Как только пройдет, попробуйте заменить память другой половиной и посмотрите.
Еще один инструмент, который нужно держать под рукой и который чрезвычайно полезен для тестирования и диагностики, - это UBCD. он включает memtest и memtest +. В новой версии даже есть тестер памяти для графических процессоров. Это пригодится, если вы подозреваете, что с видео тоже есть проблемы.
Если у вас есть сервер Linux, который перезагружается, это обычно означает, что это проблема с оборудованием. Проверьте журналы в Dell OMSA (узел, управляемый системным администратором Dell Open Manager). или через DRAC (карту удаленного доступа Dell).
Обратитесь в службу технической поддержки Dell, чтобы помочь вам в расследовании проблемы.