Назад |
Перейти на главную страницу
Сбой ЦП Cisco UCS ежедневно в одно и то же время
Ситуация
- Недавнее обновление с 2.2 до 3.1 (1e).
- С момента обновления в 6:51 утра (UTC + 1) каждый день у меня возникают отказы от нуля до трех (из ~ 60) лезвий серии B200 в моей установке.
- Это всегда одни и те же три лезвия, все на разных шасси.
- Сбои проявляются в виде жесткого зависания с сообщениями «Прогнозируемый сбой ЦП» и «CATERR_N» в SEL.
- Выключение и включение лезвия восстанавливает его работоспособность (по крайней мере, до следующего отказа).
- В UCSM нет одноразовых или повторяющихся расписаний, которые бы приближались к этому времени суток.
- Центр технической поддержки Cisco изучает, но не проливает света на то, почему сбои происходят каждый день в одно и то же время.
Мои исследования и подозрения
- У меня есть рабочая теория, что это реальные проблемы с оборудованием, которые каким-то образом были обнаружены при обновлении прошивки.
- Краткое упоминание о том, что называется «диспетчером сканирования датчиков» в руководство по устранению неполадок, но я не могу найти никаких подробностей о том, что он делает или как его контролировать.
- Я почти исключил экологическую причину. В то время наши мониторы мощности и температуры не показывают ничего необычного. Мы не в зоне землетрясений :-)
Вопрос
Почему сбои происходят каждый день в одно и то же время?
Это оказалось ошибка в прошивке версии 3.1 (1e) (Для этой ссылки требуется учетная запись Cisco). Это описывается как «редкое событие», связанное с VIC 1340 и прерыванием отладки.
Причина, по которой это происходило каждый день в одно и то же время, заключается в том, что это было вызвано:
- интенсивное использование памяти, за которым следует
- Бег
lspci
,
и это именно то, что Puppet делал каждое утро (мы запускаем его только один раз в день).
Непонятно, почему эта ошибка затронула только определенные лезвия, но обновление до версии 3.1 (1h) решило проблему.