Назад | Перейти на главную страницу

Centos 6.5 вылетает из-за паники ядра

Недавно я построил небольшой кластер для запуска Solr. Кластер состоит из 12 Supermicro Blade под управлением E3-1270V2 с 32 ГБ оперативной памяти.

11 из этих серверов работают нормально. Один из них постоянно на меня падает. Когда сервер выходит из строя, он обычно выдает какой-то вывод на терминал. В первый раз это было:

двойная ошибка: 0000 [# 1]

Хм ... это довольно загадочно. С тех пор я воссоздал проблему и получил еще несколько интересных сообщений.

Вот еще одно столь же загадочное сообщение ...

Еще одна интересная проблема заключается в том, что я могу запустить sysbench и максимально использовать процессор без сбоев, но только когда я запустил Java, он надежно выйдет из строя.

Я пробовал отключить следующие функции процессора:

Это просто плохой процессор?

Большое спасибо!

У меня был такой опыт работы с процессорами Nehalem и Westmere на серверах HP ProLiant. В моем случае сервер будет правильно выполнять POST и распознавать всю оперативную память, но генерирует исключения машинной проверки, привязанные к определенному слоту, после применения загрузки приложения.

Если вы еще этого не сделали, попробуйте локализовать проблему в конкретном слоте DIMM или DIMM, чтобы увидеть, следует ли она за перемещением модуля. Если ошибка не устранена и привязана к определенному слоту ... Я бы посоветовал проверить сокет ЦП. Проверьте разъем материнской платы процессора (ов) и обратите внимание на погнутые контакты.

Это оборудование SuperMicro, поэтому условия гарантии я не знаю. Но, надеюсь, это только ОЗУ, поскольку это более простая замена, чем системная плата.