Назад | Перейти на главную страницу

Худшая авария сисадмина

В соответствии с вопросом о Лучшая авария сисадмина, в какую самую худшую аварию вы попали? В отличие от предыдущего вопроса, я имею в виду «худший» в смысле наибольшего повреждения системы или реального вреда для людей.

Начну со своего:

У нас есть два удаленных коммутационных шкафа в конце 100-футового коридора с металлической решеткой для пола. После того, как мы установили кабель Cat6, подрядчики очистили весь мусор, который падал через решетку на бетон на 3 фута ниже. Однажды мы с коллегой вошли в коридор, чтобы проверить, как идут дела, но отвлеклись и не заметили, что кусок решетки отодвинулся в сторону. Мой приятель поднялся в воздух, и его грудь ударилась о стальную перекладину. Он был достаточно задыхался и болел, чтобы взять пару дней отпуска, но, к счастью, стальная балка имела закругленные края, а размер отверстия был таким, что он не ударился головой ни в нее, ни в этаж ниже.

Очевидно, мы узнали, что участки, где пол частично удален, должны быть отмечены флажком.

Когда я работал в Cisco, я встречал клиентов, которые купили беспроводные карты за 30 долларов и которые выплевывали чипы, когда их драйвер не устанавливался, или людей с самым дешевым базовым маршрутизатором, который был у Cisco, которые разглагольствовали о проблемах поддержки.

Все это было помещено в контекст однажды, когда мне позвонил один из крупнейших в мире поставщиков карт (вспомните Amex, Mastercard, Visa, Diners ... на самом деле это был один из тех брендов, я не знаю, были ли они был бы признателен за упоминание об этом) Я был службой поддержки, моей единственной задачей было оценить сценарий, оценить его и передать в соответствующее подразделение поддержки. Это дело было единственным делом с приоритетом 1, в котором я когда-либо участвовал.

Человек из карточной компании позвонил и заявил, что их связь между их мэйнфреймами на восточном и западном побережье США не работает. Если учетная запись была создана на одном мэйнфрейме, транзакция всегда обрабатывалась на этом мэйнфрейме. Это было нормально, если ваша ближайшая ссылка всегда была рядом с этим мэйнфреймом. Но в этот конкретный день, если у вас была учетная запись на сервере восточного побережья, но вы были на западном побережье, транзакция была бы отклонена из-за отсутствия связи.

Стандартный вопрос при оценке ущерба был: «Во сколько это обходится вашему бизнесу?» Ответ, спокойный и собранный, был: «Около миллиона долларов каждые 30 секунд».

Действительно поместите это в контекст в следующий раз, когда вы почувствуете соблазн разглагольствовать в службу поддержки по поводу вашей беспроводной карты за 30 долларов.

(следует отметить, что Cisco подключила и запустила канал в течение 5 минут после передачи)

Для псевдонимов команд, таких как rm или mv, очень часто добавляется параметр -i, чтобы избежать ошибок. Но это случилось в моей компании некоторое время назад. Кто-то поместил эту строку в корневой каталог .bashrc на одном из серверов.

alias rm='rm -i'

Затем он скопировал строку и заменил rm на mv ... или так он подумал:

alias rm='rm -i'
alias mv='rm -i'

Остальное уже история :)

Дело в том, что при ответе на вопрос "вы уверены" говорилось "удалить" вместо "переместить", но все же ...

Мы устанавливали массовую систему точек продаж в крупном ритейлере (более 1000 филиалов). На центральном сервере опроса был полностью настроен код HP-Unix, а тестирование миграции на производственную среду выполнял один человек - сын ИТ-директора.

Этот парень провел 7,95 часа своего дня за чтением фэнтези-романов, а остальные несколько минут выполнял пакетное задание по переносу ночных сборок в рабочую среду. Система была запущена через 3 дня в 150 филиалах (наше первое «настоящее» развертывание). Все было настроено, и моя команда только что закончила тестирование последних фрагментов кода. Мы зафиксировали наши изменения и переместили наши изображения из стадии разработки в тест, чтобы сын ИТ-директора забрал их на следующее утро.

Я приезжаю в 8 утра, и все в хаосе. Оказалось, что сыну сказали, что после копирования файлов в рабочую среду он должен был зайти в папку ./changed и набрать «rm -rf *». Да, на самом деле кто-то ему это сказал! Конечно, он случайно сделал это на рабочем корневом диске, на котором также размещалась наша база данных транзакционных опросов (которая в то время была отключена для резервного копирования, просто нам повезло).

Результат: нашим 16 пилотным магазинам пришлось обслуживать покупателей из сигарных ящиков (в некоторых случаях буквально) в течение 2 дней. Сын ИТ-директора был понижен в должности до Наблюдателя за серверами (он сидел в ледяной серверной комнате и должен был следить за красным светом ... но ему не разрешалось ничего трогать ... ему даже не дали компьютер и отозвал все его логины / электронную почту). Наша команда разработчиков всю ночь восстанавливала потерянные данные из резервных копий и повторно тестировала / повторно отправляла код.

К счастью, мы развернули 150 веток, но это был худший опыт развертывания КОГДА-ЛИБО.

Я научился заканчивать каждое командное предложение перед нажатием клавиши Enter.

Немного похожая ситуация, с которой я сталкиваюсь, - когда я не уверен в команде, я нажимаю Home и набираю несколько ненужных символов, чтобы команда не была распознана.

me@mypc:~$ sdkjfhdsudo mv --too-many --switches-to-be --comfortable --working-with --while-running --an-important-command /here/this /there/that

bash: sdkjfhdsudo: command not found

Затем я снова проверяю варианты, если нужно, медленно. Кто-нибудь еще так делает. Конечно, вы должны убедитесь, что вы набираете достаточно мусорных символов (5+), чтобы она не превратилась в еще одну действительную команду и не нанесла более непредсказуемый ущерб.

(Есть ли в этом основной недостаток, который я не понял, или ситуация, когда, учитывая 5+ ненужных символов, обычно в ключах "asdfghjkl", происходит что-то непредсказуемое?)

При переустановке операционной системы ноутбука для менеджера кто-то скопировал все его данные по сети на Linux-станцию ​​в / tmp. Были проблемы, и это заняло не один день.

... Linux-станция была отключена в конце дня ...

На следующий день, когда они пошли искать данные управляющего ...

Представьте, что вы будете жить в Южной Флориде во время урагана Эндрю (незадолго до повального увлечения 24X7). Все ваши серверы надежно заперты в здании, которое требует вашего пропуска, и в более безопасной зоне, требующей дополнительного сканирования вашего значка. Представьте себе придурка, который не учел нуждаться в настоящих ручках на дверях. Представьте себе контракт на четыре миллиона долларов, требующий поставки, ближайшая электроэнергия в 230 милях к северу, дефицит газа, опасные дороги и генератор, рассчитанный на 48 часов работы. Смейтесь, если хотите, над группой серверов, находящихся в кузове грузовика, застрявших на магистрали с Микки Маусом и остановившихся из-за отсутствия бензина. Если хотите, посмейтесь над полным отсутствием оправдания тому, как все было плохо с точки зрения логистики, системного администратора и эксплуатации. Лучше всего было слушать, как сотни ИБП одновременно плачут о жизни, дающей электричество.

Я работаю системным администратором около 7 месяцев, одной из моих первых задач было запустить прокси-сервер Squid, и я действительно заставил его работать, примерно через 2 недели после этого я использовал BackTrack и возился с множеством инструментов " Играя в хакера «я действительно взломал сервер, что было неплохо, но после того, как я вошел по какой-то странной причине, я сделал rm -rf из / и хорошо стер часть ОС (Debian linux).

Я научился заканчивать каждое командное предложение перед нажатием клавиши Enter.

Ура.

Один из наших клиентов обнаружил довольно необычную ошибку файловой системы XFS 24 декабря 2005 года ... Ну, в то время я не знал, что это ошибка ядра Linux, конечно, я думал, что это всего лишь некоторые из обычных подозреваемых (13 ТБ RAID со свободными 8 КБ, ложным сбоем диска в массиве и т. д.).

Наконец, поскольку файловая система была отключена, я попросил оператора в строке ввести xfs_repair -n /dev/whatever. Хм, он хочет очистить журнал (очевидно, поскольку FS не монтируется), но не слишком зловещее сообщение. Так что дерзайте: xfs_repair /dev/whatever.

Через 15 минут она перезванивает:

почему я не вижу большинство файлов?

О-о ... Оказывается, чтобы добавить оскорбления к травме, xfsprogs были какой-то версии, которая могла бы причинить серьезный вред именно в этом случае ... Ой. 8 ТБ данных пропали по-настоящему.

Некоторое время назад у моего предприятия по производству коло было простоя.

Они отключили свое основное сетевое соединение с Интернетом, чтобы выполнить некоторое обслуживание программного обеспечения на маршрутизаторе, достаточно справедливо.

Однако в то же время вышестоящий провайдер вторичного канала отключил его, чтобы провести некоторое тестирование (по-видимому, им сказали, но в центре обработки данных он был неправильно помечен)

Пока все плохо ... однако у клиентов возникли трудности с тем, чтобы добраться до объекта, чтобы обратить внимание провайдера на простой ... у провайдера были только телефоны VoIP, которые были подключены через ... ну, вы можете догадаться.

Я полагаю, вы мне не поверите, но это правда, и вопрос записи в блогосфере :)

Не уверен, что это может быть интересный ответ, но я еще и программист. Я написал свой последний веб-сайт полностью в производственной среде, без каких-либо резервных копий на моем компьютере. Плохой день после 16 часов непрерывной работы, мне пришлось очистить раздел, и самый быстрый способ сделать это - отформатировать его. Я бежал fdisk -l чтобы проверить имя раздела, который мне пришлось отформатировать, и, к сожалению, я прочитал не ту строку и отформатировал ее.

Я потерял примерно 6 месяцев работы.

К счастью, когда вы делаете то же самое во второй раз, вы делаете это лучше и быстрее, поскольку вы уже знаете, как это делать. Теперь сайт работает. И у меня есть бэкапы: =)