Назад | Перейти на главную страницу

PowerEdge R905 - «Батарея отсека для дисковода вышла из строя»

Недавно я получил предупреждение от PE 905, которым я управляю: I1912 SEL Full. Я проверил SEL через веб-интерфейс DRAC и увидел, что на сегодняшний день примерно 50 раз повторялось следующее сообщение:

"The disk drive bay battery has failed"

Через несколько секунд появится эквивалентное сообщение об устранении проблемы (к сожалению, я очистил SEL, чтобы проверить, получаю ли я сообщения, прежде чем я смогу скопировать его точную формулировку).

Беда в том, что я даже не подозревал, что привод залив был аккумулятор. (Нет, не так ли?)

Единственный RAID-контроллер в коробке - PERC 6 / i, и его батарея считается хорошей. я сделал не увидеть какие-либо ошибки ROMB (при этом я не получал предупреждений) или что-либо еще, указывающее на плохую батарею PERC.

Излишне говорить, что я погуглил сообщение об ошибке, но лучшее, что я смог найти, - это одна статья на японском языке. С помощью G translate автор, похоже, указывает, что сообщение может указывать на сбой батареи RAID или надвигающийся сбой контроллера, согласно Dell.

Похоже, он заменил контроллер и аккумулятор, тем самым решив проблему. Но требовались ли обе замены? (У меня ограниченный бюджет, и нет, у нас больше нет обслуживания / поддержки Dell для этой машины).

Имея только один доступный пост по этой теме, я просто хотел бы знать, может ли кто-нибудь пролить больше света на эту ошибку. Я был бы рад предоставить любые журналы и т. Д., Однако все, кроме этого сообщения в SEL, выглядит неуклюже. Фактически, ошибка не возвращалась в течение последнего часа после очистки журнала.

Спасибо!

Похоже, что исходное сообщение об ошибке было предшественником нового сообщения, которое действительно дает некоторые результаты в Google. После тихой ночи в системном журнале стали появляться следующие сообщения:

The storage battery has failed.
The storage battery is operating normally.

Это тот же образец, что был показан вчера вечером, но с другим сообщением.

А Вики-страница сообщества Dell сообщает подробное описание ошибки как:

Батарея контроллера PERC RAID могла выйти из строя из-за температурных исключений.

Хотя, конечно, возможно, что это локальная проблема с температурой, температура системной платы в настоящее время составляет 26 градусов. C, так что это не проблема с температурой в масштабах всей системы.

О подобной проблеме сообщалось с PERC 5 / i на один из списков рассылки Dell который не указывает на тепловые причины, но на возможную плохую / старую прошивку. (Моя прошивка обновлена).

В моем случае после повторной очистки SEL с батареей контроллера все было хорошо, и никаких новых событий в журнале не было. (Видно через OpenManage).

Я инициировал цикл обучения на батарее контроллера, и почти сразу же в OM сообщалось, что она ухудшилась. После этого журнал снова начал заполняться теми же сообщениями:

Основываясь на этой новой информации, я вполне уверен, что проблема в батарее. Я заменю его сегодня же, когда смогу добраться до сервера.

Моя гипотеза состоит в том, что на батарее начался цикл обучения, и именно в этот момент батарея стала считаться неисправной. Возможно, он нагревается при зарядке, вызывая повторяющиеся сообщения при нагревании, а затем охлаждении.

Я отвечаю на свой вопрос, потому что надеюсь, что это поможет любому, кто ищет мое исходное сообщение об ошибке (которое при поиске не дало результатов на английском языке).

К счастью, плохой аккумулятор контроллера для меня не проблема, потому что рассматриваемая машина подключена к SAN, а PERC отвечает только за локальный том ОС, который не требует интенсивной записи. Однако из этого следует сделать одну вещь: если вы полагаетесь на кэширование записи и имеете несколько контроллеров PERC, которые используют один и тот же тип батареи, держите под рукой хотя бы одну дополнительную батарею.

Обновить: Во имя науки я позволил завершить цикл обучения от батареи. Это заняло некоторое время, но завершилось успешно, и в журнал ESM / SEL не было добавлено никаких новых сообщений об ошибках.

Конечно, батарея все еще подозрительна и будет заменена, но я бы порекомендовал всем, у кого есть симптомы, которые я описал, попробовать начать цикл обучения.

Я наблюдал подобное поведение на паре систем Dell-PowerEdge, где батарее было около пяти лет.

Я увидел, что кеш виртуального диска постоянно переключается с обратной записи на сквозную.

Когда я позвонил в службу поддержки Dell по этому поводу, они сказали мне, что это может быть признаком того, что батарея недостаточно заряжена. Существует состояние, при котором батарея по-прежнему отображается как «ОК» в omsa, но, тем не менее, уровень заряда уже недостаточно высок. Вы можете проверить это через командную строку omsa:

omconfig storage controller action=exportlog controller=0 Это создаст лог-файл.

В Linux: /var/log/lsi_DDMM.log (день и месяц). Это ASCII-файл (формат DOS), в котором вы увидите подробную информацию о батарее.