Какое наиболее значительное время простоя / простоя сервера произошло за последнее десятилетие из-за проблем с производительностью, узких мест и проблем с масштабируемостью?
Два таких примера - постоянные проблемы. Twitter был как только он стал популярным и Время простоя Google в начале 2009 года.
Какие еще подобные инциденты, о которых вы знаете, вызвали большой хаос, затронувший наибольшее количество пользователей? Что можно извлечь из таких инцидентов? Как эти компании публично отреагировали на их простои?
Северо-восточное отключение электроэнергии в 2003 году было массовым отключением электроэнергии, которое произошло во всех частях Северо-Востока и Среднего Запада Соединенных Штатов и Онтарио, Канада, в четверг, 14 августа 2003 года, примерно в 16:15 по восточному времени: UTC -5. В то время это было второе по распространенности отключение электричества в истории после отключения электроэнергии в Южной Бразилии в 1999 году. [1] [2] В От отключения электричества пострадали около 10 миллионов человек в Онтарио и 45 миллионов человек в восьми штатах США.
А программная ошибка известное как состояние гонки существовало в системе управления энергопотреблением XA / 21 General Electric Energy на базе Unix. После срабатывания ошибка останавливала работу системы сигнализации диспетчерской FirstEnergy более чем на час. Системные операторы не знали о неисправности; сбой лишил их как звуковых, так и визуальных предупреждений о важных изменениях в состоянии системы. [11] [12] [13] После сбоя системы сигнализации необработанные события помещаются в очередь, и основной сервер выходит из строя в течение 30 минут. Затем все приложения (включая остановившуюся сигнализацию) были автоматически перенесены на резервный сервер, который в 14:54 вышел из строя. Из-за сбоев сервера частота обновления экранов консолей компьютеров операторов снизилась с 1–3 секунд до 59 секунд на экран. Отсутствие сигналов тревоги заставило операторов отклонить звонок от American Electric Power по поводу отключения и повторного включения распределительной линии 345 кВ на северо-востоке Огайо. Техническая поддержка проинформировала персонал диспетчерской об отказе системы охранной сигнализации в 15:42. [14]
Мои деньги на Amazon, 6 июня 2008 г.
Примерно в 10:25 по тихоокеанскому стандартному времени сайт розничной торговли Amazon стал недоступен. Все остальные серверы и сервисы Amazon работали нормально. Кроме того, был доступен https-доступ к сайту.
Сайт не работал ~ 2 часа.
По оценкам, Amazon потеряла потенциальный доход в размере 31000 долларов в минуту и большое доверие (в тот день акции Amazon упали на 2,7%).
Предполагается, что основной причиной было неправильное определение на уровне балансировки нагрузки, но никто из Amazon не подтвердит / не опровергнет.
В 2008 году произошло отключение сервисов Amazon S3 и EC2 на 3 часа, что затронуло тысячи веб-сайтов, включая Twitter (хранение) и 37 сигналов Например, согласно amazon, это было связано с проблемами масштабируемости (ссылка):
Вот некоторые дополнительные сведения о проблеме, с которой мы столкнулись сегодня. Рано утром, в 3:30 по тихоокеанскому стандартному времени, мы начали замечать повышенные уровни аутентифицированных запросов от нескольких пользователей в одном из наших мест. Хотя мы тщательно отслеживаем общие объемы запросов, и они оставались в пределах нормы, мы не отслеживали долю запросов, прошедших проверку подлинности. Важно отметить, что эти криптографические запросы потребляют больше ресурсов на вызов, чем другие типы запросов.
Незадолго до 4:00 утра по тихоокеанскому времени мы начали видеть, что несколько других пользователей значительно увеличили объем аутентифицированных вызовов. Последний из них подтолкнул службу аутентификации к максимальной мощности, прежде чем мы смогли завершить установку новой мощности. Помимо обработки запросов с проверкой подлинности, служба проверки подлинности также выполняет проверку учетной записи по каждому запросу, который обрабатывает Amazon S3. Из-за этого Amazon S3 не мог обрабатывать запросы в этом месте, начиная с 4:31 утра по тихоокеанскому времени. К 6:48 по тихоокеанскому стандартному времени мы перевели в Интернет достаточно ресурсов для решения проблемы.
Как мы уже говорили сегодня, хотя мы гордимся своим послужным списком за последние два года с этой услугой, любое количество простоев недопустимо. В рамках вскрытия этого события мы определили ряд краткосрочных действий, а также долгосрочные улучшения. Мы незамедлительно принимаем меры по следующим направлениям: (а) улучшаем наш мониторинг доли аутентифицированных запросов; (б) дальнейшее увеличение наших возможностей службы аутентификации; и (c) добавление дополнительных защитных мер к аутентифицированным вызовам. Кроме того, мы начали работу над панелью мониторинга работоспособности службы и планируем выпустить ее в ближайшее время.
С уважением, команда Amazon Web Services
Сбой, затронувший Microsoft, Google, Yahoo, Apple и службы обновления антивирусов от Symantec и TrendMicro, должен стать серьезным отключением.
Позже Akamai сообщил, что отключение было результатом DOS-атаки из бот-сети Zombified домашних компьютеров.
Как насчет потери данных TMobile Sidekick несколько недель назад?
Я бы сказал, что когда McHost был закрыт, это был ноябрь прошлого года, и по некоторым отчетам количество рассылаемого спама резко сократилось на 50-75%.
А что насчет того, когда несколько месяцев назад a2b2.com, fsck, cheapvps, vaserv и т. Д. Перестали работать в течение многих дней, дней и дней?
Это возвращается, но Отключение MS в 2001 году было довольно гламурно. MS настроила свои DNS-серверы в одной подсети, и когда роутер начал погружаться, то же самое сделали, ну, почти все их вещи ...
Лондонская биржа! http://www.theregister.co.uk/2009/11/26/lse_crash_again/
Благодаря microsoft.
Все, что делает Список рисков наряду с множеством комментариев и обсуждений.
Register.com был DDoSed в начале апреля 2009 г.. Они обрабатывают DNS для множества сайтов. Насколько я помню, DDoS длился несколько дней.
Skype пострадал от сбой аутентификации в августе 2007 года это длилось пару дней.
Еще один инцидент с Twitter, о котором сообщается здесь, - это когда Стив Джобс и мир MAc полагались на него во время одно из выступлений Стива Джобса, и он поддался нагрузке 15 января 2008 года.
Большинство людей в мире технологий в настоящее время приковывает внимание к докладу Стива Джобса на Macworld (подробные обновления в реальном времени для вас, поклонники Apple). Для тех из нас, кто не присутствовал на мероприятии, Твиттер считался хорошей возможностью узнать, что происходит, и обсудить каждый поворот с нашим сообществом. Увы, Twitter снова рухнул под официальный всплеск трафика с Macworld, и в течение последнего часа он был практически недоступен.
21 апреля 2009 года двое из трех Реестр домашнего местоположения серверы в сети T-Mobile Germany вышли из строя.
Как следствие, вся мобильная сеть T-Mobile не работала в течение нескольких часов. Неисправности начались около 16:00 и разрешились только около 21-10 часов. Отключение затронуло большинство (возможно, почти всех) из 40 миллионов абонентов T-Mobile, которые не могли принимать звонки (а некоторые все еще могли совершать исходящие звонки).
Компенсация, предлагаемая T-Mobile, была почти такой же неприятной, как и отключение: они позволяли абонентам отправлять SMS (обычно 0,19 евро за SMS) бесплатно в течение одного дня (воскресенье). Этот жест, безусловно, понравился бизнес-клиентам, который был продуманно ограничен нерабочим днем ...
Подробности (на немецком языке): http://www.teltarif.de/t-mobile-netzstoerung-hlr/news/33936.html