На прошлой неделе один из сайтов моего клиента получил прямой удар молнии (по совпадению Пятница, 13-е!).
Я находился на месте удаленно, но работая с кем-то на месте, я обнаружил странную картину повреждений. Обе интернет-ссылки были отключены, большинство серверов были недоступны. Большая часть повреждений произошла в МДФ, но с одним волоконным соединением IDF также потеряно 90% портов на элементе стека коммутаторов. Было доступно достаточно запасных портов коммутатора для перераспределения кабелей в другом месте и перепрограммирования, но были простои, пока мы искали затронутые устройства.
Это было новое здание / складское помещение, и при проектировании серверной комнаты потребовалось много времени. Главная серверная комната управляется APC SmartUPS RT 8000 ВА ИБП с двойным преобразованием в режиме онлайн, работающий от генератора. Все подключенное оборудование распределялось должным образом. Была создана репликация данных вне офиса и резервное копирование систем.
В целом ущерб (о котором я знаю) был:
Большинство проблем было связано с потерей всего блейд-коммутатора в Cisco 4507R-E. Он содержал часть сети VMware NFS и восходящую ссылку на брандмауэр сайта. Узел VMWare вышел из строя, но HA позаботился о виртуальной машине после восстановления подключения к сети хранения. Мне пришлось перезагрузить / выключить и снова включить несколько устройств, чтобы сбросить фанковые состояния питания. Так что времени на восстановление было мало, но мне любопытно, какие уроки следует извлечь ...
Имея достаточно $$$, можно встраивать в среду всевозможные избыточности, но каков разумный баланс превентивного / продуманного дизайна и эффективного использования ресурсов?
Пару работ назад один из центров обработки данных того места, где я работал, находился этажом ниже очень большой антенны. Этот большой, тонкий металлический предмет был самым высоким в округе, и каждые 18 месяцев в него ударяла молния. Сам дата-центр был построен примерно в 1980 году, поэтому я бы не стал называть его самым современным, но у них был большой опыт борьбы с повреждениями от молнии (пришлось заменять платы последовательной связи. каждый раз(что является испытанием, если платы связи находятся в системе, в которой не было никаких новых деталей за 10 лет).
Одна вещь, которую подняли старые руки, заключается в том, что весь этот ложный ток может найти путь вокруг чего угодно и может распространиться по общей земле, как только он возникнет. И может перейти через воздушные промежутки. Молния - это исключительный случай, когда нормальные стандарты безопасности не достаточно хороши для предотвращения дугового разряда, и они распространяются настолько далеко, насколько у них есть энергия. И его много. Если есть достаточное количество энергии он может дугу из сетки взвешенных потолка (возможно, один из подвесных проволок подвешивают из петли с подключением к строительной балке в цементе) к верхней части 2-стойки, и оттуда в сетевые лакомства.
Как и хакеры, вы можете сделать очень многое. На всех ваших источниках питания есть прерыватели, которые фиксируют паразитные напряжения, но ваше низковольтное сетевое оборудование почти никогда не делает этого и представляет собой общий путь для прохождения чрезвычайно сильного тока.
Обнаружение потенциально нестабильного комплекта - это то, что я умею делать в теории, но не в реальности. Вероятно, лучше всего поместить подозрительное оборудование в какое-то место и намеренно довести температуру в комнате до верхнего предела рабочего диапазона и посмотреть, что произойдет. Проведите несколько тестов, черт побери. Оставьте на пару дней. Дополнительное тепловое напряжение к любому ранее существовавшему электрическому повреждению может отсеять некоторые бомбы замедленного действия.
Это определенно сократило срок службы некоторых ваших устройств, но выяснить, какие из них, сложно. В схемах стабилизации питания внутри источников питания могут быть повреждены компоненты и они доставляют грязное питание на сервер, что вы могли обнаружить только с помощью специализированные устройства предназначен для тестирования источников питания.
Удары молнии - это не то, что я рассматривал для DR, за исключением наличия DC на объекте с гигантский громоотвод на крыше. Обычно забастовка - одна из тех вещей, которые случаются так редко, что перетасовываются под «стихийное бедствие» и продвигаются дальше.
Но ... он у тебя сейчас был. Это показывает, что на вашем предприятии хотя бы раз были подходящие условия. Пришло время оценить, насколько вашему учреждению предрасположены подходящие условия, и составить соответствующий план. Если вы сейчас думаете только о DR-ударах молнии, я думаю, это уместно.
Я думал об этом вопросе с тех пор, как его недавно отредактировали обратно в начало первой страницы.
Я свободно оговариваю, что для таких людей, как sysadmin1138, которым приходится иметь дело с установками, которые очень привлекательны для больших ударов молнии на крыше постоянного тока, специальное планирование на случай серьезного удара имеет смысл. Но для большинства из нас это разовое обстоятельство, и я подумал, что ответ, более подходящий для остальных из нас, может иметь некоторую ценность.
Можно представить себе все виды Угрозы сюжета фильма; сценарии, которые определенно могут произойти, несомненно, приведут к нарушению ваших бизнес-операций, если они это сделают, но нет оснований полагать, что вероятность их возникновения повышена. Вы знаете, что такое; удар самолета / молния / нефтебаза поблизости взорвалась / любой другой вероятный сценарий с фоновым риском.
У каждого из них есть конкретный план смягчения последствий, который может быть реализован, но я бы предложил, чтобы - по модулю моего условия выше - в этом нет никакого коммерческого смысла. Как Шнайер пытается указать в вышеупомянутом соревновании, только то, что вы можете представить себе что-то ужасное, не делает это угрозой, против которой конкретное планирование целесообразно или даже желательно. какой делает иметь хороший бизнес-смысл - это универсальный, хорошо задокументированный и проверенный план обеспечения непрерывности бизнеса.
Вы должны спросить себя, каковы коммерческие издержки полной потери сайта за различные периоды времени (например, 24 часа, 96 часов, одна неделя, один месяц), и попытаться количественно оценить вероятность каждого случая. Это должен быть честный бизнес-анализ затрат, принимаемый на всех уровнях бизнеса. Я работал на объекте, где общепринятая цифра простоя составляла 5,5 миллиона фунтов стерлингов в час (и это было 20 лет назад, когда пять миллионов фунтов были большими деньгами); сделать эту цифру, по общему мнению, сделанной очень много решения так много проще, потому что они просто превратились в простую математику.
Ваш бюджет - это прогнозируемые убытки, умноженные на годовой шанс этих убытков; Теперь посмотрим, что вы можете сделать, чтобы уменьшить эту угрозу для бюджета.
В некоторых случаях это будет работать в полностью резервном центре обработки данных с холодным оборудованием, готовым к работе круглосуточно. Это может означать небольшой резервный центр обработки данных, чтобы взаимодействие с клиентами могло продолжаться с очень ограниченным числом телефонных операторов, а также веб-сайт-заполнитель, предупреждающий о сбоях. Это может означать второе подключение к Интернету с избыточной маршрутизацией на вашем основном сайте, которое будет оставаться холодным, пока оно не понадобится. Это может означать, как отмечает Марк Хендерсон выше, страхование (но страхование, которое покрывает коммерческие убытки, а также фактические затраты на восстановление); если вы можете потратить свой бюджет BC на один лист бумаги, который покроет все ваши ожидаемые расходы в случае бедствия, может иметь смысл купить этот лист бумаги, но не забудьте учесть отказ андеррайтера в ваш план бизнес-рисков. Это может означать обновление контрактов на техническое обслуживание определенного основного оборудования до чрезвычайно дорогостоящих четырехчасовых контрактов на ремонт. Только вы можете знать, что имеет смысл для вашего бизнеса.
И как только у вас будет этот план, тебе действительно нужно это проверить (за исключением, возможно, страховых). Я работал на объекте, в 45 минутах езды от нашего основного предприятия, где у нас была полностью готовая мелкомасштабная холодильная установка, готовая к работе. Когда у нас возникла проблема с отключением основной сети, мы попытались исправить ее вживую, вместо того, чтобы переключиться на холодный сайт и затем фиксация сердечника и обрезка. Одна из причин отказа от переключения заключалась в том, что мы не имели реального представления о том, сколько времени потребуется, чтобы сократить и сократить. Поэтому на самом деле никто не знал, сколько времени должно быть разрешено работать без переключения, прежде чем принять решение о сокращении, поэтому - вполне понятно - было сдержанность в отношении решения о сокращении. Головы закружились после того, как мы вернулись в сеть, 14 часов спустя; не из-за отключения как таковой, но потому, что много денег было потрачено на установку для смягчения последствий простоя на сутки с лишним, который не использовался во время именно такого отключения.
В заключение отметим, что переданные на аутсорсинг компоненты вашего бизнес-плана не гарантированно работает. Ваше высшее руководство может сидеть и думать "если мы поместим серверы в облако, они всегда будут там, и мы можем уволить системных администраторов". Не так. Облака могут рухнуть, как и все остальное; если вы передали на аутсорсинг критически важные компоненты поставщику, все, что вы сделали, это лишили вас возможности оценить шансы отказа этих компонентов. SLA - все очень хорошо, но если они не подкреплены существенными штрафами за неисполнение, они бессмысленны - зачем вашему провайдеру тратить лишние деньги на то, чтобы оставаться доступным, если он может просто потратить деньги и возместить ваши расходы на обслуживание в течение периода недоступность? Чтобы быть надежными, ваши SLA должны включать штрафы, которые приблизительно соответствуют затратам вашего бизнеса на отключение. Да, это значительно увеличит затраты на аутсорсинг; и да, этого вполне следовало ожидать.
Всегда все сводится к тому, сколько вы хотите потратить. У меня недостаточно глубоких знаний, чтобы подробно говорить об этом, но я был в большом фармацевтическом центре обработки данных, который получил удар молнии и пробил что-то, что должно было быть многократно повторяющимся разрядником (и был спроектирован правильно). , но было реализовано неправильно, поэтому что-то прошло.)
Какой максимальный всплеск мог предотвратить ваш ИБП? У него должен быть рейтинг. Очевидно, удар был достаточно прямым, чтобы превысить это значение, или что-то просочилось вокруг питания ИБП, например, плохой грунт. Итак, возможно, вы проанализируете схему электропитания, определите, насколько вероятен еще один удар, сравните стоимость простоя X вероятности по сравнению с восстановлением и, возможно, попросите электрика провести хорошее обследование, чтобы убедиться, что все заземлено должным образом - а некоторые быстрое чтение показывает, что заземление для безопасности / кода не так интенсивно, как заземление для предотвращения повреждений от молнии.