Назад | Перейти на главную страницу

Какой у вас контрольный список, когда все взрывается?

Пользователи не могут получить доступ к своей электронной почте, генеральный директор не может перейти на домашнюю страницу компании, а ваш пейджер просто сработал с кодом «911». Что вы делаете, когда все взрывается?

Успокойся

Не волнуйтесь. Дыши! (Диафрагма помогает.) Если вы изучали медитацию, это тоже может помочь.

Столкнувшись с экстремальным стрессом, ваше тело перейдет в режим «беги или сражайся», потому что оно думает, что оно находится в ситуации жизни или смерти. В это время ваше тело фактически перекачивает меньше крови к некоторым частям вашего мозга, уменьшая такие функции, как рассуждение. Это фактически снижает ваш IQ, поскольку инстинкт, а не рациональность, начинает доминировать над функциями вашего мозга. Если вы когда-либо участвовали или были свидетелем жарких споров, вы можете распознать эти симптомы по мере того, как эмоции людей вспыхивают, а рациональность берет отпуск. Позже, когда у людей появится шанс остыть, они с большей вероятностью примут ошибку или ошиблись и станут более способны видеть другую сторону, но в пылу сиюминутного настроения это не так.

Сохранение самообладания и рассудка позволит вашему мозгу функционировать на полную мощность и обеспечит принятие рациональных решений, основанных на доказательствах и разуме, а не на эмоциях и страхе.

Сортировка

Здесь чрезвычайно важно эффективное использование ограниченных ресурсов для получения максимальной выгоды при минимальных затратах. Примите решение как можно раньше, какие вещи нужно исправить ПРЯМО СЕЙЧАС, какие могут подождать некоторое время (часы, дни), а какие - бесконечно. Также научитесь понимать, когда что-то не подлежит спасению и не стоит экономить (например, половина маршрутизатора расплавилась, даже если это ваш единственный, вы не можете его сохранить, купите новый и получите его на месте после спешки или найдите что-то, что может восполнить пробел временно).

Сохраняйте ситуационную осведомленность

Не позволяйте своему вниманию быть захваченным какой-нибудь интересной проблемой или тем, чего вы еще не совсем понимаете. Сосредоточьтесь на общей картине и на том, чтобы заставить работать самое важное.

Используйте научный метод

Сформируйте гипотезу. Определите, как вы будете проверять эту гипотезу. Соберите данные, чтобы проверить гипотезу. Также ищите подтверждающие данные. Уточните свою гипотезу и повторяйте цикл столько раз, сколько необходимо, пока вы не будете достаточно уверены в своей гипотезе, чтобы принять меры.

Будьте прагматичны

Сейчас не время для догм. При восстановлении после катастрофы можно использовать несколько ярлыков здесь и там. По сути, это накопление технического долга. Для многих компаний катастрофический отказ означает катастрофическую потерю доходов. Лучше начать работу, даже если она шаткая, чем бездельничать и рисковать средствами к существованию своей компании. Как всегда, суждение здесь чрезвычайно важно. Иногда имеет смысл подпереть коробочный вентилятор, направленный на серверную стойку, а иногда нет.

Следи за собой

Как долго вы работали над этой аварийной ситуацией? Когда в последний раз вы пили воду? Когда вы в последний раз ели? Как долго ты не спишь? Не сжигайте себя только потому, что возникла чрезвычайная ситуация, найдите время, чтобы пить, есть и отдыхать (на случай, если это долгая, многодневная работа).

Нанять помощь

В вашей компании почти наверняка много талантливых людей, которые мотивированы и способны оказать помощь. Однако будьте осторожны, чтобы слишком много людей не сбивалось с пути и не создавали проблемы друг другу. Также будьте осторожны, не надоедать людям, подвергая их "огневой стрельбе". Найдите людей, которые уже хотят помочь, заставьте их работать над целевыми задачами и убедитесь, что люди общаются друг с другом.

Общаться

Общение имеет решающее значение. Нет ничего страшнее неизвестного. Когда люди не знают ничего, кроме того, что что-то сломано, пустое заявление о том, что оно будет восстановлено через X часов, лишь слегка обнадеживает (еще менее обнадеживает после того, как прошло X часов, а все еще не работает). Действующее давление может подтолкнуть вас к слишком оптимистичным оценкам времени WAG, но это неправильный курс. Не просто говорите, что вы работаете над этим, не просто говорите, что все будет исправлено к X-time. Будьте открыты, покажите свой процесс, подробно расскажите о своем прогрессе и своих неудачах. Расскажите о проблеме, о том, как вы ее отслеживаете, и о своем плане исправления (но не топите людей в мелочах). Покажите, что проблема не является неразрешимой, покажите, что со временем все наладится, покажите, что есть компетентные люди, разбирающиеся в проблеме, - эти вещи более обнадеживают, чем необоснованные обещания графика.

Первый ответ - сохраняйте спокойствие! Я узнал, что паника только усугубляет ситуацию. Как только это будет достигнуто, следующим шагом будет фактически выяснить, в чем проблема. Жалобы от пользователей и менеджеров будут приходить к вам со всех сторон, сообщая, что ОНИ не могут сделать, но не в чем проблема.

Как только вы узнаете о проблеме, вы можете приступить к составлению плана по ее устранению и начать давать сердитым пользователям временные рамки!

Не паникуйте.

Шаг 0. Убедитесь, что неисправна не ваша система мониторинга.

войти в serverfault

Незамедлительно забронируйте рейс в страну, в которой нет экстрадиции

Сначала проверьте основы, это кажется глупым, но такие вещи, как

  1. Включено ли питание на сервере? (если вы размещаете вне сайта)
  2. Ваш хостинг-провайдер не работает?

Я знаю, что можно потратить много времени на поиск решения, когда проблема связана с исходным кодом

Извините, но на этот вопрос уже есть точный ответ в Любимый мультфильм сисадмина:

Я пингую вещи. Что происходит после этого, сильно зависит от результатов проверки связи.

Во всем виновата сеть.

(это шутка!)

RTFLF - Прочтите файл журнала Frakkin '

(Я не могу поверить в это, все идет на Скотт Хансельман)

Пока не пытайтесь ничего исправить.

Убедитесь, что вы точно знаете, в чем заключается настоящая проблема. Теперь приступаем к исправлению. Если необходимо исправить несколько вещей, внимательно подумайте, какие из них могут быть отложены (надеюсь, до следующего рабочего дня, по крайней мере!), А какие абсолютно необходимо исправить сейчас.

Но самое главное: как только все заработало, спросите, почему «все взорвалось»? Что вы собираетесь делать, чтобы это не повторилось? Есть ли какие-либо шаги, которые упростят решение, если делает вновь случилось?

Проверьте кабели! Я потерял часы, проверяя другие вещи, когда простая замена кабеля Eth0 решила бы проблему ...

Сообщите людям, что вы участвуете в этом, и, если возможно, дайте им оценку того, когда все вернется в норму.

Что касается фактического устранения неполадок, это, очевидно, зависит от того, что не так. Обычно я храню набор скриптов "проверки статуса" для различных сервисов.

Из утверждения сложно выделить конкретный набор действий. Ваш первый ход будет основан на:

  • Там, где ты
  • Сколько информации вы можете выжать из человека, который с вами связался
  • Какие у вас есть немедленные инструменты для устранения неполадок (или поиска информации)
  • Ваши знания о физических и логических путях вашей сети
  • Насколько сильно вы помогаете (часть команды? Или одинокий ниндзя?)

Очевидно, что вам нужно сохранять спокойствие и бдительность в отношении рассматриваемой проблемы. Ваш опыт устранения неполадок сети научил вас, что это вполне может быть что-то тривиальное, например:

  • Отсоединенный кабель
  • Необъявленное техническое обслуживание (еще одна техническая «починка»)
  • Ваш генеральный директор чрезмерно отреагировал на то, что компания полностью обречена после того, как его ноутбук потерял беспроводное соединение из-за того, что он / она приготовил сырную пиццу в микроволновке.

Сказав это, это также может быть что-то серьезное в категориях:

  • Физический транспорт (возможность подключения)
  • Оборудование (роутер \ коммутатор \ сервер)
  • Хранилище (недоступно \ взломано \ удалено)
  • Программное обеспечение (Сервис> Неверно настроено \ Атаковано \ отключено)

Ключевой компонент - насколько ВЫ ЗНАЕТЕ о проблеме. Какая ваша точка отсчета? (с какой точки зрения «система не работает»?).

Мне нравится этот список устранения неполадок Простое приложение для устранения неполадок теперь все исправляет знак равно

Убедитесь, что резервная копия вашего резюме в безопасности :) Затем,

Найдите общие черты. Что общего для всех затронутых систем.

Найдите то, что изменилось. В вашей организации должно происходить формальное управление изменениями.

Где новенький ... где босс ...? Кто-то из них выбрал короткий путь? (это всего лишь быстрая перезагрузка сервера, что может навредить)

У вас должны быть планы на случай непредвиденных обстоятельств.

Основные системы должны быть спроектированы либо с автоматическим переключением при отказе, либо с задокументированным и протестированным планом восстановления.

Чем важнее система, тем больше устойчивости вам нужно создать и тем более автоматической она должна быть.

Если у вас его нет, значит, это не важно, не так ли!

Проверьте DNS.

Начните с простого и двигайтесь к абсурду.

Мощность?

Ethernet?

Программа запущена?

...

Пришельцы?