Оценка повреждений оборудования после удара молнии - нужно ли было планировать больше?

На прошлой неделе один из сайтов моего клиента получил прямой удар молнии (по совпадению Пятница, 13-е!).

Я находился на месте удаленно, но работая с кем-то на месте, я обнаружил странную картину повреждений. Обе интернет-ссылки были отключены, большинство серверов были недоступны. Большая часть повреждений произошла в МДФ, но с одним волоконным соединением IDF также потеряно 90% портов на элементе стека коммутаторов. Было доступно достаточно запасных портов коммутатора для перераспределения кабелей в другом месте и перепрограммирования, но были простои, пока мы искали затронутые устройства.

Это было новое здание / складское помещение, и при проектировании серверной комнаты потребовалось много времени. Главная серверная комната управляется APC SmartUPS RT 8000 ВА ИБП с двойным преобразованием в режиме онлайн, работающий от генератора. Все подключенное оборудование распределялось должным образом. Была создана репликация данных вне офиса и резервное копирование систем.

В целом ущерб (о котором я знаю) был:

Неисправная 48-портовая линейная карта на Коммутатор шасси Cisco 4507R-E.
~~Неисправный коммутатор Cisco 2960 в стеке из 4-х элементов.~~ (ой ... слабый кабель для укладки)
Несколько нестабильных портов на коммутаторе Cisco 2960.
Материнская плата и блок питания HP ProLiant DL360 G7.
Эльфик Балансировщик каналов WAN.
Один факс-модем Multitech.
WiMax / фиксированная беспроводная интернет-антенна и инжектор питания.
Многочисленные устройства, подключенные к PoE (VoIP-телефоны, точки доступа Cisco Aironet, IP-камеры безопасности)

Большинство проблем было связано с потерей всего блейд-коммутатора в Cisco 4507R-E. Он содержал часть сети VMware NFS и восходящую ссылку на брандмауэр сайта. Узел VMWare вышел из строя, но HA позаботился о виртуальной машине после восстановления подключения к сети хранения. Мне пришлось перезагрузить / выключить и снова включить несколько устройств, чтобы сбросить фанковые состояния питания. Так что времени на восстановление было мало, но мне любопытно, какие уроки следует извлечь ...

Какие дополнительные меры защиты необходимо реализовать для защиты оборудования в будущем?
Как мне подойти к гарантии и замене? Cisco и HP заменяют элементы по контракту. Дорогой балансировщик каналов Elfiq WAN имеет рекламное объявление на их веб-сайте который в основном сказал "очень плохо, используйте сетевой сетевой фильтр". (похоже, они ожидают такого рода неудач)
Я работаю в сфере информационных технологий достаточно долго, чтобы в прошлом сталкиваться с повреждениями от грозы, но с очень ограниченным воздействием; например дешевый сетевой интерфейс ПК или разрушение мини-переключателей.
Могу ли я что-то еще сделать, чтобы обнаружить потенциально нестабильное оборудование, или мне просто нужно дождаться появления странного поведения?
Было ли это просто неудачей или что-то, что действительно следует учитывать при аварийном восстановлении?

Имея достаточно $$$, можно встраивать в среду всевозможные избыточности, но каков разумный баланс превентивного / продуманного дизайна и эффективного использования ресурсов?

Пару работ назад один из центров обработки данных того места, где я работал, находился этажом ниже очень большой антенны. Этот большой, тонкий металлический предмет был самым высоким в округе, и каждые 18 месяцев в него ударяла молния. Сам дата-центр был построен примерно в 1980 году, поэтому я бы не стал называть его самым современным, но у них был большой опыт борьбы с повреждениями от молнии (пришлось заменять платы последовательной связи. каждый раз(что является испытанием, если платы связи находятся в системе, в которой не было никаких новых деталей за 10 лет).

Одна вещь, которую подняли старые руки, заключается в том, что весь этот ложный ток может найти путь вокруг чего угодно и может распространиться по общей земле, как только он возникнет. И может перейти через воздушные промежутки. Молния - это исключительный случай, когда нормальные стандарты безопасности не достаточно хороши для предотвращения дугового разряда, и они распространяются настолько далеко, насколько у них есть энергия. И его много. Если есть достаточное количество энергии он может дугу из сетки взвешенных потолка (возможно, один из подвесных проволок подвешивают из петли с подключением к строительной балке в цементе) к верхней части 2-стойки, и оттуда в сетевые лакомства.

Как и хакеры, вы можете сделать очень многое. На всех ваших источниках питания есть прерыватели, которые фиксируют паразитные напряжения, но ваше низковольтное сетевое оборудование почти никогда не делает этого и представляет собой общий путь для прохождения чрезвычайно сильного тока.

Обнаружение потенциально нестабильного комплекта - это то, что я умею делать в теории, но не в реальности. Вероятно, лучше всего поместить подозрительное оборудование в какое-то место и намеренно довести температуру в комнате до верхнего предела рабочего диапазона и посмотреть, что произойдет. Проведите несколько тестов, черт побери. Оставьте на пару дней. Дополнительное тепловое напряжение к любому ранее существовавшему электрическому повреждению может отсеять некоторые бомбы замедленного действия.

Это определенно сократило срок службы некоторых ваших устройств, но выяснить, какие из них, сложно. В схемах стабилизации питания внутри источников питания могут быть повреждены компоненты и они доставляют грязное питание на сервер, что вы могли обнаружить только с помощью специализированные устройства предназначен для тестирования источников питания.

Удары молнии - это не то, что я рассматривал для DR, за исключением наличия DC на объекте с гигантский громоотвод на крыше. Обычно забастовка - одна из тех вещей, которые случаются так редко, что перетасовываются под «стихийное бедствие» и продвигаются дальше.

Но ... он у тебя сейчас был. Это показывает, что на вашем предприятии хотя бы раз были подходящие условия. Пришло время оценить, насколько вашему учреждению предрасположены подходящие условия, и составить соответствующий план. Если вы сейчас думаете только о DR-ударах молнии, я думаю, это уместно.

Я думал об этом вопросе с тех пор, как его недавно отредактировали обратно в начало первой страницы.

Я свободно оговариваю, что для таких людей, как sysadmin1138, которым приходится иметь дело с установками, которые очень привлекательны для больших ударов молнии на крыше постоянного тока, специальное планирование на случай серьезного удара имеет смысл. Но для большинства из нас это разовое обстоятельство, и я подумал, что ответ, более подходящий для остальных из нас, может иметь некоторую ценность.

Можно представить себе все виды Угрозы сюжета фильма; сценарии, которые определенно могут произойти, несомненно, приведут к нарушению ваших бизнес-операций, если они это сделают, но нет оснований полагать, что вероятность их возникновения повышена. Вы знаете, что такое; удар самолета / молния / нефтебаза поблизости взорвалась / любой другой вероятный сценарий с фоновым риском.

У каждого из них есть конкретный план смягчения последствий, который может быть реализован, но я бы предложил, чтобы - по модулю моего условия выше - в этом нет никакого коммерческого смысла. Как Шнайер пытается указать в вышеупомянутом соревновании, только то, что вы можете представить себе что-то ужасное, не делает это угрозой, против которой конкретное планирование целесообразно или даже желательно. какой делает иметь хороший бизнес-смысл - это универсальный, хорошо задокументированный и проверенный план обеспечения непрерывности бизнеса.

Вы должны спросить себя, каковы коммерческие издержки полной потери сайта за различные периоды времени (например, 24 часа, 96 часов, одна неделя, один месяц), и попытаться количественно оценить вероятность каждого случая. Это должен быть честный бизнес-анализ затрат, принимаемый на всех уровнях бизнеса. Я работал на объекте, где общепринятая цифра простоя составляла 5,5 миллиона фунтов стерлингов в час (и это было 20 лет назад, когда пять миллионов фунтов были большими деньгами); сделать эту цифру, по общему мнению, сделанной очень много решения так много проще, потому что они просто превратились в простую математику.

Ваш бюджет - это прогнозируемые убытки, умноженные на годовой шанс этих убытков; Теперь посмотрим, что вы можете сделать, чтобы уменьшить эту угрозу для бюджета.

В некоторых случаях это будет работать в полностью резервном центре обработки данных с холодным оборудованием, готовым к работе круглосуточно. Это может означать небольшой резервный центр обработки данных, чтобы взаимодействие с клиентами могло продолжаться с очень ограниченным числом телефонных операторов, а также веб-сайт-заполнитель, предупреждающий о сбоях. Это может означать второе подключение к Интернету с избыточной маршрутизацией на вашем основном сайте, которое будет оставаться холодным, пока оно не понадобится. Это может означать, как отмечает Марк Хендерсон выше, страхование (но страхование, которое покрывает коммерческие убытки, а также фактические затраты на восстановление); если вы можете потратить свой бюджет BC на один лист бумаги, который покроет все ваши ожидаемые расходы в случае бедствия, может иметь смысл купить этот лист бумаги, но не забудьте учесть отказ андеррайтера в ваш план бизнес-рисков. Это может означать обновление контрактов на техническое обслуживание определенного основного оборудования до чрезвычайно дорогостоящих четырехчасовых контрактов на ремонт. Только вы можете знать, что имеет смысл для вашего бизнеса.

И как только у вас будет этот план, тебе действительно нужно это проверить (за исключением, возможно, страховых). Я работал на объекте, в 45 минутах езды от нашего основного предприятия, где у нас была полностью готовая мелкомасштабная холодильная установка, готовая к работе. Когда у нас возникла проблема с отключением основной сети, мы попытались исправить ее вживую, вместо того, чтобы переключиться на холодный сайт и затем фиксация сердечника и обрезка. Одна из причин отказа от переключения заключалась в том, что мы не имели реального представления о том, сколько времени потребуется, чтобы сократить и сократить. Поэтому на самом деле никто не знал, сколько времени должно быть разрешено работать без переключения, прежде чем принять решение о сокращении, поэтому - вполне понятно - было сдержанность в отношении решения о сокращении. Головы закружились после того, как мы вернулись в сеть, 14 часов спустя; не из-за отключения как таковой, но потому, что много денег было потрачено на установку для смягчения последствий простоя на сутки с лишним, который не использовался во время именно такого отключения.

В заключение отметим, что переданные на аутсорсинг компоненты вашего бизнес-плана не гарантированно работает. Ваше высшее руководство может сидеть и думать "если мы поместим серверы в облако, они всегда будут там, и мы можем уволить системных администраторов". Не так. Облака могут рухнуть, как и все остальное; если вы передали на аутсорсинг критически важные компоненты поставщику, все, что вы сделали, это лишили вас возможности оценить шансы отказа этих компонентов. SLA - все очень хорошо, но если они не подкреплены существенными штрафами за неисполнение, они бессмысленны - зачем вашему провайдеру тратить лишние деньги на то, чтобы оставаться доступным, если он может просто потратить деньги и возместить ваши расходы на обслуживание в течение периода недоступность? Чтобы быть надежными, ваши SLA должны включать штрафы, которые приблизительно соответствуют затратам вашего бизнеса на отключение. Да, это значительно увеличит затраты на аутсорсинг; и да, этого вполне следовало ожидать.

Всегда все сводится к тому, сколько вы хотите потратить. У меня недостаточно глубоких знаний, чтобы подробно говорить об этом, но я был в большом фармацевтическом центре обработки данных, который получил удар молнии и пробил что-то, что должно было быть многократно повторяющимся разрядником (и был спроектирован правильно). , но было реализовано неправильно, поэтому что-то прошло.)

Какой максимальный всплеск мог предотвратить ваш ИБП? У него должен быть рейтинг. Очевидно, удар был достаточно прямым, чтобы превысить это значение, или что-то просочилось вокруг питания ИБП, например, плохой грунт. Итак, возможно, вы проанализируете схему электропитания, определите, насколько вероятен еще один удар, сравните стоимость простоя X вероятности по сравнению с восстановлением и, возможно, попросите электрика провести хорошее обследование, чтобы убедиться, что все заземлено должным образом - а некоторые быстрое чтение показывает, что заземление для безопасности / кода не так интенсивно, как заземление для предотвращения повреждений от молнии.