Назад | Перейти на главную страницу

Как диагностировать ложные срабатывания с помощью интеллектуального PDU ping'ing устройств в локальной сети

У меня есть умный PDU (Pakedge), который пингует различные устройства LAN в стойке, и если они не реагируют, он включает и выключает соответствующую розетку, чтобы перезагрузить устройство, он также отправляет мне уведомление по электронной почте.

Какие меры предосторожности я могу установить, чтобы предотвратить появление ложных срабатываний, когда, например, сетевой коммутатор отключается, и тогда каждое устройство будет «отключаться» / зависать для PDU?

ОБНОВИТЬ В некоторых ответах правильно упоминается, что устройства принудительного включения и выключения питания в вышеупомянутом поместье могут вызвать проблемы, я должен уточнить устройство, которое я делаю в этом вышеупомянутом случае, это смонтированные в стойке AV-матрицы / усилители, а не серверы / NAS

Не делай этого. Вы уже определили потенциальную проблему, если переключатель выходит из строя и PDU выключает другие устройства. Кроме того, циклическое отключение питания создает риски для целостности некоторых систем, которые необходимо корректно отключать.

Вместо этого разработайте необходимый вам высокий уровень доступности.

  • Определите свои требования к времени безотказной работы.
  • Отслеживайте службы, поддерживаемые этими устройствами, с точки зрения конечного пользователя. Возможно, для веб-сервера ПОЛУЧИТЕ страницу входа и отслеживайте каждый код состояния http.
  • Если доступность службы недостаточна, найдите основную причину сбоя.
  • Если один компонент вышел из строя, вы можете начать добавлять избыточность. Маршрутизаторы горячего резервирования, балансировщики нагрузки, кластеры и т. Д.

Существуют кластерные реализации, которые «стреляют узлами в голову», отключая их от сети и выключая. Corosync + Pacemaker, также известный как набор кластеров Red Hat, может это сделать. Но у них есть представление о кворуме, и они делают это только тогда, когда большинство узлов соглашаются, что он мертв. Хорошая реализация кластера требует тестирования, чтобы убедиться, что он надежно отработает отказ, и только при необходимости.

Можно ли управлять сетевым коммутатором?

Если да, вы можете подумать об этом решении.

Шаг 1: проверьте связь с коммутатором. Если он запущен, продолжите другие проверки. В противном случае ничего не делайте и перейдите к шагу 1.

Если коммутатор не поддерживает ping, вы можете, например, проверить связь с почтовым сервером или другим хостом в сети.

Остерегайтесь плюсов и минусов добавления дополнительных проверок. При определенных условиях вы рискуете не выключить и не выключить и снова включить устройства LAN.