Я нахожусь в среде, где много Супермикро серверы, оснащенные Adaptec и LSI MegaRAID аппаратные RAID-контроллеры. Эти контроллеры содержат модули кэш-памяти с резервным питанием от батарей, которые помогают повысить производительность записи и защитить данные при передаче.
Частые проблемы со службой поддержки - отказ батареи контроллера RAID. Это сдвигает массив с обратная запись к сквозная запись Режим. Очевидно, что это отрицательно сказывается на производительности, поскольку система работает с пониженной скоростью записи. Это продолжается до тех пор, пока не будет установлен период простоя для отключения системы и замены батареи.
Для нас это очень рутинная операция; почти еженедельно на нескольких тысячах физических серверов ... У нас даже есть зарядные станции для подготовки сменных аккумуляторов, которые можно заменить без цикла зарядки.
Возможно, меня избаловала долгая история с серверами HP ProLiant и RAID-контроллеры Smart Array, но системы HP обычно имеют срок службы батареи 4-6 лет. В конечном итоге они отказались от использования батарей RAID примерно в 2009 году. Они были заменены модулями памяти с суперконденсаторной поддержкой (кэш записи с флеш-памятью или FBWC) и не требуют замены, утилизации или длительного начального цикла зарядки.
Поскольку я вижу, что отказ батарей контроллера Adaptec и LSI иногда происходит в системах, которые находились в эксплуатации в течение меньше, чем 12 месяцев, интересно, распространено ли это в других средах.
Если это обычное явление, как с этим справляются другие большие серверные среды?
В документации по продукту LSI описывается аккумулятор нового поколения, который может прослужить дольше 1 года.
Сервер HP ProLiant DL585 G2 со временем безотказной работы более 1000 дней и хорошей батареей RAID ...
# uptime
05:38:08 up 1031 days, 44 min, 31 users, load average: 0.49, 0.64, 0.99
# hpacucli
Cache Board Present: True
Cache Status: OK
Accelerator Ratio: 50% Read / 50% Write
Total Cache Size: 512 MB
Battery Pack Count: 1
Battery Status: OK
Я подозреваю, что ваши Supermicro так или иначе сломаны - возможно, аккумуляторы перегреваются. Самые последние LSI будут сообщать о температуре через MegaCLI - вы можете отслеживать это значение на серверах, которые нуждаются в замене.
root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL
BBU status for Adapter: 0
BatteryType: BBU
[...]
Temperature: 41 C
Я видел пару систем Dell и Fujitsu с контроллерами LSI BBU, ни у одной из них не было ежегодной замены аккумуляторной батареи (за исключением того, что вы испортили батарею глубокой разрядкой). Типичный срок службы составляет от 3 до 5 лет.
Мой опыт работы с версиями платформ LSI от IBM за несколько сотен установок показывает, что средняя батарея едва составляет 2 года, а суперконденсатор ничуть не лучше, некоторые из которых можно исправить с помощью обновления прошивки, но у LSI его просто нет. право. За первые 2 года у меня было около 75% отказов суперконденсатора.
Средний срок службы батареи должен составлять 3-5 лет. И не забывайте, что FBWC на основе флеш-памяти также не работает. Не знаю, почему и как, но мы регулярно их заменяли на наших серверах HP. Я должен работать дольше, чем батарея, но у меня нет статистики с наших отдельных серверов.
Стандартный способ предотвратить последствия отказа батареи и обучения батарее - использовать несколько батарей. Вот как это устроено хранилище HP (например, HP EVA). У вас есть 2 батареи с возможностью «горячей» замены, и пока одна из них разряжена или заменяется, контроллер работает с оставшейся. Я не уверен, можно ли подключить к SmartArray несколько батарей, но hpacucli
diag
вывод предполагает, что его следует поддерживать:
Battery 1 firmware is up to date. Battery 2 not present. Battery 3 not present. Battery Status: Battery 1 Battery 2 Battery 3 --------------- --------- --------- --------- Present: YES NO NO Responding: YES N/A N/A PIC Revision: 52 . . Status: 0x80 . . Extra Status: 0x01 . . Enabled: FALSE . . Charging: FALSE . . Good: TRUE . . Open: FALSE . . Shorted: FALSE . . Sample Err: FALSE . . Control: 0x00 . . Load Current: (0x70) 24.6mA . . Per Memory Chip: 4920uA . . Voltage: (0xae) 5640mV . . Capacity: 100% . . Depletion count: 0x00 . .