Недавно я получил предупреждение от PE 905, которым я управляю: I1912 SEL Full
. Я проверил SEL через веб-интерфейс DRAC и увидел, что на сегодняшний день примерно 50 раз повторялось следующее сообщение:
"The disk drive bay battery has failed"
Через несколько секунд появится эквивалентное сообщение об устранении проблемы (к сожалению, я очистил SEL, чтобы проверить, получаю ли я сообщения, прежде чем я смогу скопировать его точную формулировку).
Беда в том, что я даже не подозревал, что привод залив был аккумулятор. (Нет, не так ли?)
Единственный RAID-контроллер в коробке - PERC 6 / i, и его батарея считается хорошей. я сделал не увидеть какие-либо ошибки ROMB (при этом я не получал предупреждений) или что-либо еще, указывающее на плохую батарею PERC.
Излишне говорить, что я погуглил сообщение об ошибке, но лучшее, что я смог найти, - это одна статья на японском языке. С помощью G translate автор, похоже, указывает, что сообщение может указывать на сбой батареи RAID или надвигающийся сбой контроллера, согласно Dell.
Похоже, он заменил контроллер и аккумулятор, тем самым решив проблему. Но требовались ли обе замены? (У меня ограниченный бюджет, и нет, у нас больше нет обслуживания / поддержки Dell для этой машины).
Имея только один доступный пост по этой теме, я просто хотел бы знать, может ли кто-нибудь пролить больше света на эту ошибку. Я был бы рад предоставить любые журналы и т. Д., Однако все, кроме этого сообщения в SEL, выглядит неуклюже. Фактически, ошибка не возвращалась в течение последнего часа после очистки журнала.
Спасибо!
Похоже, что исходное сообщение об ошибке было предшественником нового сообщения, которое действительно дает некоторые результаты в Google. После тихой ночи в системном журнале стали появляться следующие сообщения:
The storage battery has failed.
The storage battery is operating normally.
Это тот же образец, что был показан вчера вечером, но с другим сообщением.
А Вики-страница сообщества Dell сообщает подробное описание ошибки как:
Батарея контроллера PERC RAID могла выйти из строя из-за температурных исключений.
Хотя, конечно, возможно, что это локальная проблема с температурой, температура системной платы в настоящее время составляет 26 градусов. C, так что это не проблема с температурой в масштабах всей системы.
О подобной проблеме сообщалось с PERC 5 / i на один из списков рассылки Dell который не указывает на тепловые причины, но на возможную плохую / старую прошивку. (Моя прошивка обновлена).
В моем случае после повторной очистки SEL с батареей контроллера все было хорошо, и никаких новых событий в журнале не было. (Видно через OpenManage).
Я инициировал цикл обучения на батарее контроллера, и почти сразу же в OM сообщалось, что она ухудшилась. После этого журнал снова начал заполняться теми же сообщениями:
Основываясь на этой новой информации, я вполне уверен, что проблема в батарее. Я заменю его сегодня же, когда смогу добраться до сервера.
Моя гипотеза состоит в том, что на батарее начался цикл обучения, и именно в этот момент батарея стала считаться неисправной. Возможно, он нагревается при зарядке, вызывая повторяющиеся сообщения при нагревании, а затем охлаждении.
Я отвечаю на свой вопрос, потому что надеюсь, что это поможет любому, кто ищет мое исходное сообщение об ошибке (которое при поиске не дало результатов на английском языке).
К счастью, плохой аккумулятор контроллера для меня не проблема, потому что рассматриваемая машина подключена к SAN, а PERC отвечает только за локальный том ОС, который не требует интенсивной записи. Однако из этого следует сделать одну вещь: если вы полагаетесь на кэширование записи и имеете несколько контроллеров PERC, которые используют один и тот же тип батареи, держите под рукой хотя бы одну дополнительную батарею.
Обновить: Во имя науки я позволил завершить цикл обучения от батареи. Это заняло некоторое время, но завершилось успешно, и в журнал ESM / SEL не было добавлено никаких новых сообщений об ошибках.
Конечно, батарея все еще подозрительна и будет заменена, но я бы порекомендовал всем, у кого есть симптомы, которые я описал, попробовать начать цикл обучения.
Я наблюдал подобное поведение на паре систем Dell-PowerEdge, где батарее было около пяти лет.
Я увидел, что кеш виртуального диска постоянно переключается с обратной записи на сквозную.
Когда я позвонил в службу поддержки Dell по этому поводу, они сказали мне, что это может быть признаком того, что батарея недостаточно заряжена. Существует состояние, при котором батарея по-прежнему отображается как «ОК» в omsa, но, тем не менее, уровень заряда уже недостаточно высок. Вы можете проверить это через командную строку omsa:
omconfig storage controller action=exportlog controller=0
Это создаст лог-файл.
В Linux: /var/log/lsi_DDMM.log (день и месяц). Это ASCII-файл (формат DOS), в котором вы увидите подробную информацию о батарее.