Мне поручили управлять командой из 4 системных администраторов. Они управляют более чем 70 серверами. У них еще нет письменных процессов / процедур / практик. Я не очень разбираюсь в системном администрировании. Есть ли стандарт, которому мы можем следовать, чтобы стандартизировать нашу работу или выбрать лучшие практики?
Я бы поддержал то, что другие говорили о том, чтобы не вмешиваться и не устанавливать закон. Вы говорите, что команда сейчас управляет более чем 70 серверами, поэтому мой первый вопрос: насколько хорошо у них дела? Есть ли много внеплановых простоев, перебоев в работе в рабочие дни, постоянных попыток исправить что-то непосредственно перед тем, как это взорвется? Или они неплохо справляются с работой с точки зрения предоставления услуг, и лишь изредка случаются непредвиденные катастрофы, подобные тем, которые случаются со всеми нами и нарушают мир?
Если последнее, то у вас есть хорошая команда, которая, кажется, знает, что делает, и не пытаюсь исправить то, что не сломано это важная часть того, чтобы не оказывать поддержку вашей команде.
Если это первое, у вас все еще может быть хорошая команда; хорошие команды могут потерпеть неудачу из-за отсутствия поддержки и участия со стороны бизнеса (отсутствие бюджета на новый комплект, отсутствие соглашения о компенсации за полуночную работу, которая потребовалась бы для обновления вещей без перебоев в рабочий день, отсутствие четкого соглашения по SLA), или внутренние трения, или множество других нетехнических причин.
Если первое, конечно, у вас может просто неадекватная команда.
Правильный ответ варьируется дико в этих трех сценариях, а также будет зависеть от вовлеченных лиц.
Если у вас есть хорошая команда, которая хорошо работает, то позвольте ей вести вас. То, что они делают, правильно, но вы должны понимать, что они делают и как. Они скажут вам, если вы спросите, и если вы спросите вежливо, они, вероятно, расскажут вам наиболее полезным способом, записав все это. Ежегодные обзоры и согласованные цели - хороший способ добавить больше документации в жизнь рабочего системного администратора. По сути, то, что они делают сейчас, близко к передовой практике, поэтому постарайтесь заставить их документировать это взаимовыгодным способом, а не навязывать им что-либо.
Если у вас есть хорошая команда, которая плохо работает, они, вероятно, знают, что нужно изменить, чтобы стать хорошей командой, работающей хорошо. Слушайте их и подумайте, как преобразовать их потребности в обоснованные требования, которые будут возвращены бизнесу. Вы можете добавить большую ценность в качестве моста между миром технологий и миром бизнеса, если вы готовы слушать обе сторон, и сказать "нет" обе стороны в соответствующей мере.
Если у вас плохая команда, которая плохо работает, значит, вам придется потрудиться. Выявление и документирование того, что идет не так, будет иметь важное значение для дисциплины и, при необходимости, замены людей, не подвергая бизнес ответственности. Выявление низко висящих плодов - вещей, которые можно было бы легко подтолкнуть к успеху - важно для получения быстрых результатов в плане мотивации команды и повышения деловой репутации, а определение того, что не так, помогает здесь, чтобы показать, что некоторые быстрые улучшения были сделаны .
Я вижу, что немного сбился с пути, но я искренне верю, что передовая практика и стандартизация существуют для удовлетворения потребностей бизнеса и людей, выполняющих работу, а не для того, чтобы быть некой вершиной качества документации, стоящей в одиночестве в вакуум, поэтому мой ответ отражает мой взаимосвязанный подход. Извините, если это слишком долго!
Начните с ITIL: http://en.wikipedia.org/wiki/Information_Technology_Infrastructure_Library
ITIL дает подробные описания ряда важных ИТ-практик и предоставляет исчерпывающие контрольные списки, задачи и процедуры, которые любая ИТ-организация может адаптировать к своим потребностям.
Не ожидайте, что прочитаете книгу ITIL и все узнаете, но это хорошее место для начала. После прочтения ITIL и сообщения системным администраторам о «новом законе» вы можете стать несчастными.
Я бы посоветовал им сесть и обсудить с ними, как лучше всего улучшить документацию и как охватить учет рабочего времени и т. Д.
Вы можете начать с Практика системного и сетевого администрирования, второе издание Томас А. Лимончелли, Кристина Дж. Хоган и Страта Р. Чалуп. Здесь описаны некоторые действительно отличные передовые практики, которые помогут вам и вашей команде встать на правильный путь. Это довольно практично, и его легко читать, несмотря на его длину.
ITIL - это хорошая вещь, о которой следует помнить, но для людей, плохо знакомых с ITIL, очень легко сдерживать себя, пытаясь реализовать все, что он описывает, в точности. Используйте то, что вам нужно, помните, что вам может понадобиться позже, но не позволяйте этому мешать вам выполнять работу, которую ожидают ваши клиенты.
Другие ответы дают некоторые конкретные практические советы о таких вещах, как ITIL, что, на мой взгляд, хорошо. Однако имейте в виду, что многие стандарты сводятся к тому, чтобы делать разумные вещи и делать это повторяемым образом. Вам необходимо последовательно управлять своими серверами с помощью таких инструментов управления конфигурацией, как Puppet или Chef. Вам необходимо отслеживать как можно больше показателей и быть максимально прозрачным для ваших пользователей. Если вы обычно думаете об общей картине предоставления качественных услуг и удовлетворении ваших клиентов или пользователей, у вас все будет хорошо. То, что вы думаете о стандартах, - хороший знак.
Одна книга, которую я недавно прочитал по многим из этих тем, была Веб-операции. В нем есть несколько полезных советов о том, как управлять вскрытием инцидентов и собирать метрики. Рекомендуемые.
Как системный администратор, я рекомендую вам сосредоточить свою команду на:
Эти 3 аспекта должны сделать вашу команду продуктивной, а членов вашей команды заменить.
ITIL и COBIT - лидеры стандартов. Наша компания работает с ITILv3, но был и IT-мониторинг на основе COBIT.
Стоит также быстро взглянуть: http://en.wikipedia.org/wiki/COBIT
Номер один, о котором стоит спросить свою команду, - это резервное копирование и восстановление - убедитесь, что это предусмотрено. Как говорит Том Кайт относительно администрирования баз данных, резервное копирование и восстановление - это единственное, что вы не можете позволить себе ошибиться. Сначала просмотрите это, задокументируйте, особенно любые риски и уровень обслуживания, которые вы можете взять на себя, и устраните любые пробелы между реальностью и ожиданиями бизнеса.
Получите отзывы от системных администраторов (и, возможно, даже разработчиков) о том, как можно улучшить процессы. Они - ваш источник информации номер один, и они знают проблемы и узкие места лучше, чем кто-либо другой.
Убедитесь, что ваш процесс документирования безупречен, и максимально автоматизируйте его. Люди всегда забывают добавлять в вики заметки о развертываниях и обновлениях. Подумайте о написании панели управления сервером, которая позволит им быстро проверять, как работают все серверы и какие версии программного обеспечения установлены на различных устройствах.
Автоматизируйте, автоматизируйте и автоматизируйте (и документируйте всю автоматизацию).