У меня есть HP MicroServer N54L под управлением Linux Mint 17.2 (свежая установка). Каждые несколько дней я нахожу машину в выключенном состоянии (на самом деле в режиме ожидания - не в том смысле, что она перешла в спящий режим, а в том смысле, что она не работает, но имеет питание и ее можно запустить, нажав кнопку кнопка питания).
Я запустил на нем memtest86 безрезультатно. Я не могу найти много интересного в kern.log, syslog, dmesg и т. Д., За исключением:
Aug 1 06:14:16 donbot kernel: [388813.031331] radeon 0000:01:05.0: BAR 6: [??? 0x00000000 flags 0x2] has bogus alignment
Aug 1 06:14:16 donbot kernel: [388813.031346] pci 0000:00:14.4: PCI bridge to [bus 03]
в kern.log, как раз перед отключением питания. И
Aug 1 15:20:35 donbot kernel: [ 3.260404] radeon 0000:01:05.0: registered panic notifier
в kern.log после перезагрузки машины. Перед установкой Mint 17.2 в моей установке Mint 16 происходили такие же отключения электроэнергии, и я кратко пытался заставить работать linux-crashdump, но не смог получить из него аварийные дампы.
Иногда кажется, что потеря питания происходит, когда мое задание snapraid cron выполняет проверку целостности на моих дисках. Это довольно интенсивный процесс, но он никогда не занимает более 1/3 системной памяти и не более одного из двух ЦП. Я почти уверен, что некоторые сбои произошли в то время, когда ничего не работало. (Я только что успешно провел 6-часовую очистку всех дисков snapraid без происшествий. Однако я не припоминаю, чтобы у меня возникала эта проблема до планирования ежедневных запусков snapraid через cron.)
Большую часть времени машина работает без головы, поэтому я не уверен, при чем тут драйвер Radeon. (Видеокарта не установлена, вероятно, это встроенная графика.) Я установил sysstat для дополнительных возможностей мониторинга.
Кажется, я был свидетелем одной из этих катастроф только сейчас. Я запускал snapraid в одной оболочке и пытался больше / var / log / sysstat / sa01 (который, как я знаю, является двоичным файлом). Система, возможно, случайно, зависла в тот момент, когда я нажимал клавишу возврата по команде more.
Я здесь немного растерялся. Это пахнет аппаратной проблемой, но, как я уже упоминал, я запустил memtest86 и не смог вызвать ошибку. (Кстати, у сервера есть память ECC.)
Машина подключена к ограничителю перенапряжения. Похоже, что ни одно другое оборудование в этом туалете не перезагружается. Тем не менее, я замечаю, что при прослушивании музыки с этого сервера (он напрямую подключен к усилителю) я время от времени получаю короткие всплески статического электричества.
Как я могу попытаться отследить это дальше?