Назад | Перейти на главную страницу

Диагностика аппаратной проблемы на Linux-сервере, вызывающей панику ядра

У нас есть сервер, ядро ​​которого в течение некоторого времени периодически паниковало, и, как мы полагаем, имеет аппаратную проблему. Как бы вы занялись устранением неполадок оборудования, к которому у вас нет физического доступа? Существуют ли какие-либо инструменты, которые я могу использовать в самой ОС для диагностики различных частей системы, чтобы попытаться выяснить, что вызывает всю эту панику?

За исключением случаев, когда что-либо обнаруживается в журналах системы или в инструментах тестирования, поставляемых поставщиком (дисплей передней панели, Dell Diagnostics и т. Д.), Для большинства диагностических процедур потребуется физический доступ к системе.

Мое предложение было бы иметь memtest86 или memtest86 + работать в системе: большинство панических ситуаций / случайных сбоев вызвано плохой оперативной памятью, и это обычно помогает.

У тебя будет действительно сложная диагностика аппаратных проблем без доступа к оборудованию; если это не заметно по журналам или из-за дыма и потрескивания, за которыми следуют аккуратные искры света, тогда большая часть устранения неполадок оборудования сводится к переключению частей, пока проблема не исчезнет.

Проблема с оборудованием заключается в том, что когда вы используете программное обеспечение для его устранения, оно может только сказать вам, что является проблема, а не в чем может быть проблема. То есть memtest86 обнаруживает определенную проблему с памятью, у вас есть определенная проблема с памятью, но если memtest86 говорит там не проблема с памятью, на самом деле у вас все еще может быть проблема с памятью (у меня были тесты системы, но сбой прекратился только после замены модуля).

Это все равно, что просить свой мозг поставить себе диагноз. Выводам доверять нельзя. :-)