В соответствии с вопросом о Лучшая авария сисадмина, в какую самую худшую аварию вы попали? В отличие от предыдущего вопроса, я имею в виду «худший» в смысле наибольшего повреждения системы или реального вреда для людей.
Начну со своего:
У нас есть два удаленных коммутационных шкафа в конце 100-футового коридора с металлической решеткой для пола. После того, как мы установили кабель Cat6, подрядчики очистили весь мусор, который падал через решетку на бетон на 3 фута ниже. Однажды мы с коллегой вошли в коридор, чтобы проверить, как идут дела, но отвлеклись и не заметили, что кусок решетки отодвинулся в сторону. Мой приятель поднялся в воздух, и его грудь ударилась о стальную перекладину. Он был достаточно задыхался и болел, чтобы взять пару дней отпуска, но, к счастью, стальная балка имела закругленные края, а размер отверстия был таким, что он не ударился головой ни в нее, ни в этаж ниже.
Очевидно, мы узнали, что участки, где пол частично удален, должны быть отмечены флажком.
Когда я работал в Cisco, я встречал клиентов, которые купили беспроводные карты за 30 долларов и которые выплевывали чипы, когда их драйвер не устанавливался, или людей с самым дешевым базовым маршрутизатором, который был у Cisco, которые разглагольствовали о проблемах поддержки.
Все это было помещено в контекст однажды, когда мне позвонил один из крупнейших в мире поставщиков карт (вспомните Amex, Mastercard, Visa, Diners ... на самом деле это был один из тех брендов, я не знаю, были ли они был бы признателен за упоминание об этом) Я был службой поддержки, моей единственной задачей было оценить сценарий, оценить его и передать в соответствующее подразделение поддержки. Это дело было единственным делом с приоритетом 1, в котором я когда-либо участвовал.
Человек из карточной компании позвонил и заявил, что их связь между их мэйнфреймами на восточном и западном побережье США не работает. Если учетная запись была создана на одном мэйнфрейме, транзакция всегда обрабатывалась на этом мэйнфрейме. Это было нормально, если ваша ближайшая ссылка всегда была рядом с этим мэйнфреймом. Но в этот конкретный день, если у вас была учетная запись на сервере восточного побережья, но вы были на западном побережье, транзакция была бы отклонена из-за отсутствия связи.
Стандартный вопрос при оценке ущерба был: «Во сколько это обходится вашему бизнесу?» Ответ, спокойный и собранный, был: «Около миллиона долларов каждые 30 секунд».
Действительно поместите это в контекст в следующий раз, когда вы почувствуете соблазн разглагольствовать в службу поддержки по поводу вашей беспроводной карты за 30 долларов.
(следует отметить, что Cisco подключила и запустила канал в течение 5 минут после передачи)
Для псевдонимов команд, таких как rm или mv, очень часто добавляется параметр -i, чтобы избежать ошибок. Но это случилось в моей компании некоторое время назад. Кто-то поместил эту строку в корневой каталог .bashrc на одном из серверов.
alias rm='rm -i'
Затем он скопировал строку и заменил rm на mv ... или так он подумал:
alias rm='rm -i'
alias mv='rm -i'
Остальное уже история :)
Дело в том, что при ответе на вопрос "вы уверены" говорилось "удалить" вместо "переместить", но все же ...
Мы устанавливали массовую систему точек продаж в крупном ритейлере (более 1000 филиалов). На центральном сервере опроса был полностью настроен код HP-Unix, а тестирование миграции на производственную среду выполнял один человек - сын ИТ-директора.
Этот парень провел 7,95 часа своего дня за чтением фэнтези-романов, а остальные несколько минут выполнял пакетное задание по переносу ночных сборок в рабочую среду. Система была запущена через 3 дня в 150 филиалах (наше первое «настоящее» развертывание). Все было настроено, и моя команда только что закончила тестирование последних фрагментов кода. Мы зафиксировали наши изменения и переместили наши изображения из стадии разработки в тест, чтобы сын ИТ-директора забрал их на следующее утро.
Я приезжаю в 8 утра, и все в хаосе. Оказалось, что сыну сказали, что после копирования файлов в рабочую среду он должен был зайти в папку ./changed и набрать «rm -rf *». Да, на самом деле кто-то ему это сказал! Конечно, он случайно сделал это на рабочем корневом диске, на котором также размещалась наша база данных транзакционных опросов (которая в то время была отключена для резервного копирования, просто нам повезло).
Результат: нашим 16 пилотным магазинам пришлось обслуживать покупателей из сигарных ящиков (в некоторых случаях буквально) в течение 2 дней. Сын ИТ-директора был понижен в должности до Наблюдателя за серверами (он сидел в ледяной серверной комнате и должен был следить за красным светом ... но ему не разрешалось ничего трогать ... ему даже не дали компьютер и отозвал все его логины / электронную почту). Наша команда разработчиков всю ночь восстанавливала потерянные данные из резервных копий и повторно тестировала / повторно отправляла код.
К счастью, мы развернули 150 веток, но это был худший опыт развертывания КОГДА-ЛИБО.
Я научился заканчивать каждое командное предложение перед нажатием клавиши Enter.
Немного похожая ситуация, с которой я сталкиваюсь, - когда я не уверен в команде, я нажимаю Home и набираю несколько ненужных символов, чтобы команда не была распознана.
me@mypc:~$ sdkjfhdsudo mv --too-many --switches-to-be --comfortable --working-with --while-running --an-important-command /here/this /there/that
bash: sdkjfhdsudo: command not found
Затем я снова проверяю варианты, если нужно, медленно. Кто-нибудь еще так делает. Конечно, вы должны убедитесь, что вы набираете достаточно мусорных символов (5+), чтобы она не превратилась в еще одну действительную команду и не нанесла более непредсказуемый ущерб.
(Есть ли в этом основной недостаток, который я не понял, или ситуация, когда, учитывая 5+ ненужных символов, обычно в ключах "asdfghjkl", происходит что-то непредсказуемое?)
При переустановке операционной системы ноутбука для менеджера кто-то скопировал все его данные по сети на Linux-станцию в / tmp. Были проблемы, и это заняло не один день.
... Linux-станция была отключена в конце дня ...
На следующий день, когда они пошли искать данные управляющего ...
Представьте, что вы будете жить в Южной Флориде во время урагана Эндрю (незадолго до повального увлечения 24X7). Все ваши серверы надежно заперты в здании, которое требует вашего пропуска, и в более безопасной зоне, требующей дополнительного сканирования вашего значка. Представьте себе придурка, который не учел нуждаться в настоящих ручках на дверях. Представьте себе контракт на четыре миллиона долларов, требующий поставки, ближайшая электроэнергия в 230 милях к северу, дефицит газа, опасные дороги и генератор, рассчитанный на 48 часов работы. Смейтесь, если хотите, над группой серверов, находящихся в кузове грузовика, застрявших на магистрали с Микки Маусом и остановившихся из-за отсутствия бензина. Если хотите, посмейтесь над полным отсутствием оправдания тому, как все было плохо с точки зрения логистики, системного администратора и эксплуатации. Лучше всего было слушать, как сотни ИБП одновременно плачут о жизни, дающей электричество.
Я работаю системным администратором около 7 месяцев, одной из моих первых задач было запустить прокси-сервер Squid, и я действительно заставил его работать, примерно через 2 недели после этого я использовал BackTrack и возился с множеством инструментов " Играя в хакера «я действительно взломал сервер, что было неплохо, но после того, как я вошел по какой-то странной причине, я сделал rm -rf из / и хорошо стер часть ОС (Debian linux).
Я научился заканчивать каждое командное предложение перед нажатием клавиши Enter.
Ура.
Один из наших клиентов обнаружил довольно необычную ошибку файловой системы XFS 24 декабря 2005 года ... Ну, в то время я не знал, что это ошибка ядра Linux, конечно, я думал, что это всего лишь некоторые из обычных подозреваемых (13 ТБ RAID со свободными 8 КБ, ложным сбоем диска в массиве и т. д.).
Наконец, поскольку файловая система была отключена, я попросил оператора в строке ввести xfs_repair -n /dev/whatever
. Хм, он хочет очистить журнал (очевидно, поскольку FS не монтируется), но не слишком зловещее сообщение. Так что дерзайте: xfs_repair /dev/whatever
.
Через 15 минут она перезванивает:
почему я не вижу большинство файлов?
О-о ... Оказывается, чтобы добавить оскорбления к травме, xfsprogs были какой-то версии, которая могла бы причинить серьезный вред именно в этом случае ... Ой. 8 ТБ данных пропали по-настоящему.
Некоторое время назад у моего предприятия по производству коло было простоя.
Они отключили свое основное сетевое соединение с Интернетом, чтобы выполнить некоторое обслуживание программного обеспечения на маршрутизаторе, достаточно справедливо.
Однако в то же время вышестоящий провайдер вторичного канала отключил его, чтобы провести некоторое тестирование (по-видимому, им сказали, но в центре обработки данных он был неправильно помечен)
Пока все плохо ... однако у клиентов возникли трудности с тем, чтобы добраться до объекта, чтобы обратить внимание провайдера на простой ... у провайдера были только телефоны VoIP, которые были подключены через ... ну, вы можете догадаться.
Я полагаю, вы мне не поверите, но это правда, и вопрос записи в блогосфере :)
Не уверен, что это может быть интересный ответ, но я еще и программист. Я написал свой последний веб-сайт полностью в производственной среде, без каких-либо резервных копий на моем компьютере. Плохой день после 16 часов непрерывной работы, мне пришлось очистить раздел, и самый быстрый способ сделать это - отформатировать его. Я бежал fdisk -l
чтобы проверить имя раздела, который мне пришлось отформатировать, и, к сожалению, я прочитал не ту строку и отформатировал ее.
Я потерял примерно 6 месяцев работы.
К счастью, когда вы делаете то же самое во второй раз, вы делаете это лучше и быстрее, поскольку вы уже знаете, как это делать. Теперь сайт работает. И у меня есть бэкапы: =)