Вчера в сети Linode на HE.net произошел серьезный сбой - предположительно, у he.net вышел из строя «один из восьми» генераторов энергии, что, по-видимому, так или иначе привело к Облако Линоде Фремонт опускается на целых пять часов (2015-05-29T18: 30/23: 30 PT). Поступали сообщения о том, что, предположительно, ядро сети было частью без питания, однако после восстановления работоспособности выяснилось, что все серверы также могли быть отключены от сети.
Как лучше всего подавать питание на серверы?
Достаточно ли в целом полагаться только на питание от центра обработки данных (где почти всегда требуются ИБП и генераторы, не так ли?), Или у вас должны быть дополнительные ИБП на ваших полках?
Должно ли сетевое ядро находиться под собственным ИБП?
Есть ли у какого-либо крупного поставщика облачных или специализированных услуг выделенные ИБП для каждого сервера / стойки?
Что-то не получается. Это часть жизни сисадмина. любой Ваш бизнес-план, основанный на услуге, предлагающей 100% безотказную работу, - плохой. Прежде чем я скажу что-либо еще, позвольте мне отметить, что я не знаю подробностей об этом конкретном отключении.
Тем не менее, у меня и раньше выходили из строя ИБП промышленного класса. В high-end colo у нас был выключатель на 800A, частично открытый, что означает, что все защищенные серверы были подключены к обе на улице и на ИБП на короткое время, потом на четыре часа ничего. Когда он вернулся, мы обнаружили, что наш главный сервер БД потерял почти половину своих жестких дисков из-за быстрого отключения и скачков питания. Это был интересный день.
Конечно, вы можете дублировать функции ИБП на объекте, установив ИБП в каждой стойке. Я никогда не встречал кто угодно это делает это, и я подозреваю, что причина в том, что он удваивает единичные точки отказа, и, что еще хуже, он вставляет второй низкокачественный SPOF между вашим комплектом и промышленным ИБП. ИБП размером с центр обработки данных будут регулярно обслуживаться, тщательно контролироваться и вряд ли когда-либо будут (но не «никогда») терпеть неудачу; ИБП для установки в стойку - это гораздо больше оборудования потребительского уровня, и они будут чаще выходить из строя. Мой персональный сервер был отключен на целые выходные после того, как отдельный ИБП, на котором он работал, вышел из строя, даже несмотря на то, что энергоснабжение было хорошее все время.
Если вы действительно хотите обеспечить высокую доступность, вам потребуются сетевые блоки PI с маршрутизацией по BGP, дублирующий комплект, распределенный по нескольким DC с несколькими поставщиками, надежные SLA с зубцами; целиком очень и очень дорого тамале. Вот почему я говорю это вы получаете 99% без дополнительных затрат; каждые лишние 9 увеличивают стоимость на порядок. И если кто-то в вашей организации думал, что размещение чего-либо в облаке означает, что вы не работаете на оборудовании или не должны об этом беспокоиться, что ж, он ошибался.
Я не знаю специфики этого сбоя, но не существует волшебной палочки «один странный трюк, чтобы никогда не было сбоев», о котором этот провайдер не знает или отказывается реализовать в будущем. делает использовать.
Независимо от того, что вы делаете, как бы тщательно вы ни планировали, всегда есть шанс, что что-то пойдет не так. Раньше я работал в очень большом центре обработки данных компании, занимающейся разведкой нефти и газа, и у нас была самая последняя и лучшая на тот момент технология мэйнфреймов IBM. Это была не только самая быстрая, которую можно было купить за деньги, но и самая надежная, избыточная и отказоустойчивая система, которую IBM могла предоставить.
Но это не удалось, и у нас отключился 36 часов. Не из-за ошибки кода или проблем с питанием, или из-за того, что вы обычно можете ассоциировать с серьезными отключениями, а из-за небольшой резиновой шайбы, которая стоит несколько пенни.
Система имела водяное охлаждение, и в систему водяного охлаждения также были встроены резервирование и отказоустойчивость. В то время никто этого не понимал, но была только одна маленькая «единственная точка отказа» - насос, который позволял создавать давление в обоих контурах водяного охлаждения. или сливается только из одной впускной и выпускной трубы. Угадали, где была стиральная машина, о которой я упоминал ранее, но ...?
Итак, к чему я веду этот анекдот? Если вам нужна избыточность облачной / размещенной службы, то вместо того, чтобы думать тактически о расположении ИБП и шин питания, вам нужно подумать стратегически и выбрать поставщика (или более одного поставщика и принять на себя накладные расходы по управлению этим внутри компании), который имеет несколько географически разнесенных мест и надежную (как они / вы это определяете? Как они / вы это тестируете?) переключение между ними.