Назад | Перейти на главную страницу

Список устранения неполадок системного администратора «Пожарные учения»

Одна из самых сложных задач - научить системных администраторов решать проблемы (думать) последовательным образом, особенно когда они находятся под давлением, звонят аварийные звонки и т. Д.

Для некоторых тренировок я хотел бы придумать сборник «Fire Drills» с некоторыми простыми, но разумными шагами, приложенными к нему, которые могли бы сузить проблему. Например:

Веб-сайт не работает

  1. Сузить круг - внутреннюю сеть, внешнюю или обе? В одном месте или по всему миру?
  2. DNS - разрешается?
  3. Порт - он открыт? Он отвечает? (Используйте Telnet)
  4. Заголовки хоста - правильно?
  5. Веб-сервер - Ошибки в средстве просмотра событий?

Было бы невероятно полезно, если бы вы также могли добавить одно из своих «упражнений». Также приветствуются другие способы тренировки мышления системного администратора.

Сисадмин (я придумал это слово) - это своего рода «общая медицина». Вы должны быть сильны в отношении ОС, оборудования, сети, безопасности, а иногда и разработки (вам нужно как минимум понимать языки, с которыми вы работаете).

Один из хороших способов обучения системных администраторов - создание сеансов прерывания и исправления. Я сделал это один раз, чтобы протестировать новых кандидатов на работу: им нужно было установить сервер с нуля (чтобы вы могли проверить их понимание при установке / разбиении), настроить серверы и службы, провести небольшое базовое усиление. После этого я пойду туда и все испорчу. Незначительные изменения на hosts файлы, поврежденные или неправильные passwd или shadow, вы назовете его и посмотрите, удастся ли кандидатам решить проблему логическим способом в нужное время.

Я согласен с вашей идеей упражнений, но думаю, что им, возможно, стоит пойти немного глубже. Например, если вы дойдете до шага 5 на веб-сайт не работает сценарий, куда идти дальше.

Я предлагаю упражнение способами, которые вы предложили своим:

Пользователи за прокси / NAT больше не могут просматривать www

  1. Проверьте, только ли это один пользователь или несколько
  2. Проверьте подключение к прокси (пинг, открытые порты и т. Д.)
  3. Проверьте, реагирует ли прокси-машина (проблемы с загрузкой и т. Д.)
  4. Проверить журналы
  5. Проверьте процессы / диски на прокси-машине (слишком много процессов, диск заполнен)
  6. Проверить процессы прокси / правила фильтрации / правила nat

Но, как я уже сказал, после шага 6 вы в значительной степени имеете дело с нестандартной проблемой, и именно тогда навыки системного администратора проявляются.

Я никогда не управлял системными администраторами, но я один из них, и мне приходилось иметь дело с ситуациями «это не тренировка», когда сотни серверов многократно теряли тысячи долларов в минуту. По моему опыту, ничто не может заменить глубокое и интуитивно понятное (т. Е. Основанное на реальном понимании и опыте) знание всей блок-схемы (так сказать) того, что происходит от браузера к веб-серверу и обратно, а затем конкретно того, что происходит в конкретном веб-приложении с момента поступления запроса до момента выхода ответа.

Если вы обнаружите, что ваш системный администратор не может предоставить вам весь поток, как правило, от браузера к серверу и обратно, после обучения, я бы посоветовал ему или ей не содержать в качестве системного администратора.

Если бы я проводил эту «пожарную тренировку», я бы, вероятно, оставил ее в произвольной форме, дал лимит времени и попросил системного администратора записывать свой мыслительный процесс и то, что он / она проверял бы сверху вниз. Здесь нельзя ожидать совершенства, но это было бы хорошим началом для поиска пробелов в интуитивных знаниях.

Кроме того, не позволяйте системным администраторам загонять себя в ящик. Например, если сказать: «Это база данных; администратор базы данных должен устранять ее, пока я занимаюсь устранением других неполадок», - это позволяет системному администратору не знать интуитивно поток работы приложения от начала до конца и, следовательно, не понимать его полностью. По крайней мере, системный администратор должен быть в состоянии исключить все / большинство других возможностей, и когда его / ее знания будут израсходованы, точно знать, к кому обратиться за помощью. (Знание, когда и кого позвать на помощь, само по себе является незаменимым навыком.)