Недавно я построил небольшой кластер для запуска Solr. Кластер состоит из 12 Supermicro Blade под управлением E3-1270V2 с 32 ГБ оперативной памяти.
11 из этих серверов работают нормально. Один из них постоянно на меня падает. Когда сервер выходит из строя, он обычно выдает какой-то вывод на терминал. В первый раз это было:
двойная ошибка: 0000 [# 1]
Хм ... это довольно загадочно. С тех пор я воссоздал проблему и получил еще несколько интересных сообщений.
Вот еще одно столь же загадочное сообщение ...
Еще одна интересная проблема заключается в том, что я могу запустить sysbench и максимально использовать процессор без сбоев, но только когда я запустил Java, он надежно выйдет из строя.
Я пробовал отключить следующие функции процессора:
Это просто плохой процессор?
Большое спасибо!
У меня был такой опыт работы с процессорами Nehalem и Westmere на серверах HP ProLiant. В моем случае сервер будет правильно выполнять POST и распознавать всю оперативную память, но генерирует исключения машинной проверки, привязанные к определенному слоту, после применения загрузки приложения.
Если вы еще этого не сделали, попробуйте локализовать проблему в конкретном слоте DIMM или DIMM, чтобы увидеть, следует ли она за перемещением модуля. Если ошибка не устранена и привязана к определенному слоту ... Я бы посоветовал проверить сокет ЦП. Проверьте разъем материнской платы процессора (ов) и обратите внимание на погнутые контакты.
Это оборудование SuperMicro, поэтому условия гарантии я не знаю. Но, надеюсь, это только ОЗУ, поскольку это более простая замена, чем системная плата.