Наш поставщик услуг колокации предоставил нам APC AP7932 коммутируемые блоки PDU 0U как часть нескольких шкафов, которые они нам предоставляют. У нас было много проблем с аспектом управления сетью этих PDU, который я опишу ниже. Мы переезжаем в клетку в том же центре обработки данных и купим собственные блоки распределения питания для этой клетки. Я хотел бы определить, какие PDU корпоративного уровня были надежными исполнителями с точки зрения удаленного управления, чтобы мы в конечном итоге не купили что-то, что хорошо выглядит на бумаге, но является кошмаром для использования.
Наши PDU, предоставляемые colo, настроены для поддержки управления через веб-интерфейс SSL и через telnet. Мы обновили прошивку на всех из них до актуальной версии по состоянию на ноябрь 2011 года. Они надежно отвечают на эхо-запросы, и у нас нет причин подозревать проблему на сетевом уровне. Однако мы часто сталкиваемся с зависаниями, тайм-аутами, отключениями и общей недоступностью со встроенного хоста управления во всех PDU. Время от времени нам приходится перезапускать микроконтроллер на PDU, чтобы восстановиться после случайных серьезных сбоев. Розетки остаются под напряжением (к счастью), но аспект управления настолько ненадежен, что стал обязанностью оператора - мы не можем быть уверены, что сможем войти в PDU для включения и выключения хоста, если нам понадобится. У нас есть 3 блока PDU, которые ведут себя одинаково.
Существует множество производителей коммутируемых PDU корпоративного уровня 0U со сравнимыми характеристиками. Если бы я взглянул на таблицу наших текущих PDU, то показалось бы, что они хорошо подходят - только с пользой страдания от их использования, мы знаем, чтобы избежать их. Я бы не хотел выбирать PDU, который хорошо выглядит на бумаге, но имеет аналогичные проблемы с надежностью.
Каков был опыт других пользователей с коммутируемыми PDU? Нормален ли такой уровень шелушения?
То, что вы описываете, вроде как ненормально. Однако как вы определяете доступность? У вас есть решение для мониторинга, которое постоянно проверяет связь с устройством?
В прошлом у меня было OpenNMS набор для сбора с моих устройств APC UPS и PDU. Некоторые проверки, в частности пробы http, ftp и telnet, вызвали тайм-аут интерфейса управления, что привело к отключениям на 30-60 секунд. Может это то, что вы видите.
Однако у меня никогда не было проблем со сбором SNMP. В таком случае постарайтесь уменьшить количество обращений к интерфейсу управления и сосредоточьтесь только на сборе того, что вам нужно.
Выдержка из моей диаграммы доступности OpenNMS на интерфейсе APC