Назад | Перейти на главную страницу

Сервер зависает без паники ядра

У нас запущен узел KVM, который нерегулярно дает сбой, демонстрируя очень странное поведение. Интересно то, что у нас уже была эта проблема с другим узлом, который падал каждые 1-2 недели. Поскольку мы не смогли найти проблемы с оборудованием, мы начали перенос виртуальных машин на новый узел. Примерно через неделю после того, как мы перенесли 50% виртуальных машин, новый узел вышел из строя, а «старый» с тех пор работает нормально (время безотказной работы 3 недели, мы не видели такого большого времени безотказной работы в течение нескольких месяцев).

Когда узел выходит из строя, мы иногда видим эти странные вещи на Supermicro IPMI:

Мы также видели:

Чего мы никогда не видели, так это паники ядра или хотя бы некоторых сообщений в журналах до сбоя, полная тишина, пока внезапно не погаснет свет.

Поскольку проблема «перемещалась» с одного сервера на другой (совершенно новая машина), на мой взгляд, осталось только несколько вариантов:

Подробнее о машинах:

Кто-нибудь видел такое поведение или может что-то сказать по поводу странных "сообщений" на консоли? Я никогда не видел ничего подобного и даже не знаю, как это описать для поиска в Google. На данный момент мы не очень хорошо представляем, что делать дальше, поскольку это может быть все.

Заранее спасибо!

Это может быть ошибка процессора. Корпорация Intel опубликовала список ошибок, связанных с этой проблемой, и также предоставила обновление микрокода для процессоров E5 v3 / v4 (код даты 20170707). CentOS 7.4 уже имеет более новую версию микрокода 0xb000021 (в CentOS 7.3 это был 0xb00001e). Может помочь замена микрокода или обновление до 7.4. У меня тоже было много проблем с зависанием этой системы. Я безуспешно поменял системную плату (X10DRi), ОЗУ, ЦП и блок питания. Я не могу точно сказать, является ли это решением, потому что у меня недостаточно времени безотказной работы с тех пор, как я обновил микрокод. Supermicro до сих пор не предоставляет обновленный BIOS с текущим микрокодом Intel. Вы можете получить неофициальную предварительную версию X10DRI у своего дистрибьютора.

Краткое обновление по этому поводу: после обновления до новейшего ядра LTS (4.4.39) сервер стал стабильным. Время безотказной работы 19 дней, так что я думаю, что мы его получили. Хотя мы действительно не знаем первопричину, мы думаем, что ядро ​​CentOS 7 (3.10) может быть слишком старым для очень современного оборудования. Поскольку мы не можем предоставить полезное сообщение об ошибке (например, панику ядра в лучшем случае), мы решили не сообщать об этом разработчикам CentOS.