В настоящее время меня обслуживают технические специалисты центра обработки данных по поводу работы моих серверов, но я думаю о расширении, и мне интересно, что мне нужно знать.
Некоторые вещи, о которых я понимаю, я должен знать, но не знаю, как именно о них знать:
Мне в основном интересно, какой ваш любимый маленький совет, который, по вашему мнению, должен знать каждый оператор сервера, но многие, если не большинство, этого не делают.
Документируйте все, создавайте резервные копии документов в нескольких местах.
Документирование всего позволяет мгновенно об этом забыть. Вы всегда можете посмотреть его позже, когда он вам понадобится.
Лично я считаю, что мой ум острее, когда ему не приходится постоянно нести бремя статических данных.
Две мои любимые вещи, которые легко упустить из виду и привести к ужасу:
Сохранять исправления для вашей системы должно быть легко. Я предлагаю вам использовать «стабильные» дистрибутивы с долгосрочной поддержкой (то есть вы получаете нет обновления программного обеспечения, помимо исправлений безопасности и исправлений основных ошибок). Это означает, что операция «обновить все» в их диспетчере пакетов, вероятно, будет гладкой и простой. Вам также следует подписаться на список рассылки по безопасности дистрибутивов и оценивать все сообщения, касающиеся установленного вами программного обеспечения.
Вы также должны проверить все средства входа в ящик, убедиться, что нет ненужных запущенных приложений, доступных из сети, и что необходимые приложения, доступные из сети, должным образом защищены (т. Е. Использовать шифрование по мере необходимости и иметь строгую аутентификацию).
Просмотр файлов журнала несколько переоценен, но вы можете найти пакеты, упрощающие это. Например, Redhat Enterprise (и CentOS) по умолчанию устанавливают logwatch, который отправляет вам ежедневный отчет о ваших файлах журнала по электронной почте.
Также для систем, которые должны предоставлять услуги 24/7, вы должны настроить мониторинг и, при необходимости, меры аварийного переключения.
Также резервные копии!
Установить в /etc/mail/aliases
# Person who should get root's mail
#root: user
+ Изменить user
себе или на свой адрес электронной почты. Теперь вы получите любое системное уведомление, которое будет сочтено достаточно важным для отправки электронной почты root.
Проверьте свое оборудование. И продолжайте проверять свое оборудование, пока сервер работает. Большинство сбоев Linux на самом деле вызвано аппаратным обеспечением.
Для каждого жесткого диска используйте smartmontools
чтобы проверить это УМНАЯ. положение дел. Перед использованием диска запустите длительную самопроверку (примерно 1-2 часа):
# This command starts the test
smartctl --test=long /dev/sda
# This one to show the test status
watch -n 120 smartctl --log=selftest /dev/sda
Кроме того, сохраните smartd
демон запущен и обратите внимание на логи.
Используйте резервные диски. Не доверяйте только одному жесткому диску. Не все ошибки могут быть обнаружены S.M.A.R.T., и я говорю это из мой собственный опыт.
Также установите mcelog
и продолжай смотреть /var/log/mcelog
. Этот инструмент регистрирует Исключения при проверке машины, которые являются исключениями, перехваченными ЦП. Нормальная, здоровая система не должна генерировать MCE. Таким образом, если вы видите какой-либо зарегистрированный MCE, что-то не так (возможно, перегрев).
И помните: рано или поздно оборудование выйдет из строя.
Прежде чем принимать решение о ветвлении, убедитесь, что у вас достаточно знаний для этого. А ты?
Проверьте состояние ваших томов RAID. Например, AMCC / 3Ware предоставляет утилиту tw_cli
Ура
Во-первых, настройте что-то вроде logwatch и apticron, чтобы отправлять вам по электронной почте отчеты о файлах журнала и списки устаревших пакетов. Войдите в систему всякий раз, когда apticron отправит вам электронное письмо, и apt-get update && apt-getupgrade (я предполагаю, что это производная от debian. Другие Linux, вероятно, имеют эквиваленты apt-cron). Если вы знаете, откуда будете подключаться, вам следует заблокировать ssh из любого места, кроме этого IP. Если нет, установка чего-то вроде fail2ban в любом случае должна остановить атаки методом перебора.