Назад | Перейти на главную страницу

Частота отказа батареи кэша аппаратного RAID-контроллера / срок службы?

Я нахожусь в среде, где много Супермикро серверы, оснащенные Adaptec и LSI MegaRAID аппаратные RAID-контроллеры. Эти контроллеры содержат модули кэш-памяти с резервным питанием от батарей, которые помогают повысить производительность записи и защитить данные при передаче.

Частые проблемы со службой поддержки - отказ батареи контроллера RAID. Это сдвигает массив с обратная запись к сквозная запись Режим. Очевидно, что это отрицательно сказывается на производительности, поскольку система работает с пониженной скоростью записи. Это продолжается до тех пор, пока не будет установлен период простоя для отключения системы и замены батареи.

Для нас это очень рутинная операция; почти еженедельно на нескольких тысячах физических серверов ... У нас даже есть зарядные станции для подготовки сменных аккумуляторов, которые можно заменить без цикла зарядки.

Возможно, меня избаловала долгая история с серверами HP ProLiant и RAID-контроллеры Smart Array, но системы HP обычно имеют срок службы батареи 4-6 лет. В конечном итоге они отказались от использования батарей RAID примерно в 2009 году. Они были заменены модулями памяти с суперконденсаторной поддержкой (кэш записи с флеш-памятью или FBWC) и не требуют замены, утилизации или длительного начального цикла зарядки.

Поскольку я вижу, что отказ батарей контроллера Adaptec и LSI иногда происходит в системах, которые находились в эксплуатации в течение меньше, чем 12 месяцев, интересно, распространено ли это в других средах.

Если это обычное явление, как с этим справляются другие большие серверные среды?

В документации по продукту LSI описывается аккумулятор нового поколения, который может прослужить дольше 1 года.

Сервер HP ProLiant DL585 G2 со временем безотказной работы более 1000 дней и хорошей батареей RAID ...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK

Я подозреваю, что ваши Supermicro так или иначе сломаны - возможно, аккумуляторы перегреваются. Самые последние LSI будут сообщать о температуре через MegaCLI - вы можете отслеживать это значение на серверах, которые нуждаются в замене.

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

Я видел пару систем Dell и Fujitsu с контроллерами LSI BBU, ни у одной из них не было ежегодной замены аккумуляторной батареи (за исключением того, что вы испортили батарею глубокой разрядкой). Типичный срок службы составляет от 3 до 5 лет.

Мой опыт работы с версиями платформ LSI от IBM за несколько сотен установок показывает, что средняя батарея едва составляет 2 года, а суперконденсатор ничуть не лучше, некоторые из которых можно исправить с помощью обновления прошивки, но у LSI его просто нет. право. За первые 2 года у меня было около 75% отказов суперконденсатора.

Средний срок службы батареи должен составлять 3-5 лет. И не забывайте, что FBWC на ​​основе флеш-памяти также не работает. Не знаю, почему и как, но мы регулярно их заменяли на наших серверах HP. Я должен работать дольше, чем батарея, но у меня нет статистики с наших отдельных серверов.

Стандартный способ предотвратить последствия отказа батареи и обучения батарее - использовать несколько батарей. Вот как это устроено хранилище HP (например, HP EVA). У вас есть 2 батареи с возможностью «горячей» замены, и пока одна из них разряжена или заменяется, контроллер работает с оставшейся. Я не уверен, можно ли подключить к SmartArray несколько батарей, но hpacucli diag вывод предполагает, что его следует поддерживать:

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .