У меня есть супермикро-бокс высотой 1U, которому несколько лет, и на него не распространяется гарантия. Недавно он начал случайным образом отключаться. Он будет работать от нескольких часов до недели, а затем перестанет отвечать. Консоль IPMI показывает, что он включен, но он полностью не отвечает.
Я бы очень хотел починить эту машину, так как у владельцев очень ограниченный бюджет. В настоящее время он имеет CentOS 7.
Что я искал:
Что я пробовал:
Учитывая, что у него есть резервные источники питания, я думаю, что это не проблема. Остается процессор и материнская плата.
Запустил указанную машину и дал ей поработать, пока она не остановилась (12 часов?). Окно IPMI показывает, что он застрял на загрузочной странице всего.
Он был загружен и запущен. Это заставляет меня думать, что это проблема основной платы. К нему не подключено никаких USB-устройств, и он надежно закреплен.
Я бы не стал полностью исключать БП. Если они избыточны, вы можете попробовать запустить только один, а затем другой.
Можете ли вы получить замену ЦП? Подержанные Xeon довольно дешевы, и вы все равно можете их продать. Если это многопроцессорная система, попробуйте удалить все, кроме одного.
Есть ли в системе отдельный сменный VRM для ЦП?
Это вполне может быть материнская плата, но это, вероятно, означает, что машина мертва.
Используйте процесс исключения. Вынимайте по одному компоненту за раз:
Проверьте, вылетает ли он без каждого чипа памяти. Если не вылетает, значит, вы вынули микросхему памяти.
Если это не оперативная память, замените жесткий диск временным запасным или загрузитесь с активного USB-накопителя, когда вам нужно проверить жесткий драйвер. Если он не выключается, значит, это жесткий диск.
Если процессоры съемные, вы можете попробовать работать без каждого из них.
Таким же образом устраните подачу электроэнергии
Если карты NIC съемные, исключите это
Если это все еще проблема после всех этих тестов, вероятно, это перегретая материнская плата.
Проверьте dmesg на наличие паники ядра и т. Д. Также системный журнал может показать вам некоторые подсказки, предполагая, что это связано с ОС