Назад | Перейти на главную страницу

Каковы побочные эффекты полного корневого раздела?

У меня работает критически важный сервер, который я не могу отключить (или, по крайней мере, мне сказали, что я не могу прямо сейчас).

К сожалению, он заполнил корневой раздел.

Он запускает собственный процесс, который записывает некоторые файлы журналов, и, поскольку я в основном разработчик, я хотел исправить способ ведения журналов программы, чтобы сделать его совместимым с logrotate, поскольку сейчас этого нет.

Поэтому мне нужно убедить ведущего разработчика, что исправление этого стоит и должно быть приоритетной задачей. На данный момент я могу сжать журналы и скопировать их за пределы сайта, так как они хотят, чтобы они долго хранились для анализа. Но в некоторые дни сервер получает большой трафик и регистрирует МНОГО данных, заполняющих диск, прежде чем я смогу что-либо сделать. Как только диск заполнен, сжатие больших файлов без свободного места невозможно. А поскольку они большие, копирование на другой сервер может занять некоторое время.

Так что мне нужны рычаги воздействия, чтобы повысить приоритет этого. Каковы побочные эффекты полного корневого раздела?

Серьезность полного корневого раздела можно немного уменьшить, если другие части файловой системы находятся на своих собственных разделах. Однако просто представьте, что может сделать любой процесс, если он не может писать в файловую систему и вместо этого получает ошибку.

Например, файлы /var/run/*.pid не могут быть созданы никаким процессом, который использует этот механизм (и многие из них), они не должны запускаться или просто давать сбой, или они могут неоднократно пытаться запустить, не обнаруживая их уже запущены из-за отсутствия файла pid и запускают новый экземпляр, пока не запустится процесс-убийца нехватки памяти и не начнет уничтожать вещи в основном случайным образом.

Побочные эффекты могут включать, но не ограничиваются ими:

  • сервер неожиданно падает посреди ночи, когда администратор (-ы) в отпуске, крепко спит и т. д.
  • в зависимости от того, как написано ваше пользовательское приложение, оно может не справиться с этим сбоем каким-либо разумным образом и повредить себя до такой степени, что вам потребуется восстановление из резервной копии. Большинство разработчиков при тестировании не думают, что "что произойдет, если я выдерну шнур питания ... СЕЙЧАС! Ничего себе это не убило, а что если я сделаю это ....... СЕЙЧАС"

У вас же есть резервные копии ...

Сколько времени потребуется, чтобы

  • понимаете, что вы не можете восстановить существующую систему в разумные сроки
  • возможно, настроить новую машину (чтобы вы удалили старую для анализа для восстановления некоторой обнадеживающей информации)
  • фактически восстановить из резервной копии

Насколько менеджменту понравятся такие простои и потеря данных ...?