Я управляю несколькими файловыми серверами Linux. Все они запускают приложения, написанные 0-10 лет назад. Как иногда случается, машина приближается к диску или исчерпывает его. Причины включают в себя приложения, не меняющие файлы журналов, машину с 500 ГБ диска, создающую каждый месяц 150 ГБ новых файлов, которые не были записаны на ленту, базы данных, постепенно увеличивающиеся в размере, люди, совершающие глупости ... в общем, немного хаоса.
В любом случае, когда машина неожиданно заполняется с 50% до 100% за пару часов, я выясняю, что сломалось (много «du»), и удаляю файлы или связываюсь с кем-нибудь. Я также могу посмотреть на графики кактусов, чтобы выяснить, каково нормальное использование диска машиной (например, для / home).
Кто-нибудь знает какие-либо инструменты, которые предоставят более подробную информацию об историческом использовании, чем график cacti / RRD? Например, «/ home / abc / xyz увеличился на 50 ГБ за последний день».
Я думаю, что математическая подгонка кривой может быть здесь ответом, но я еще не исследовал его. Я был на выступлении, где Джон Адамс из Twitter говорил об этом для планирования их мощностей, и это показалось мне полезной идеей.
Насколько я понимаю, подгонка кривой заключается в том, что она берет существующие данные и дает вам экстраполяцию использования. Это можно использовать для ответа на такие вопросы, как «в зависимости от текущего использования, когда наш диск заполнится на 100%?».
Вот страница Википедии о подборе кривой. Посылка фитык похоже, хорошее место для начала.
Кажется, что для этого требуется некоторое программирование, к сожалению, я не вижу простого вставного плагина для пакета мониторинга, такого как Cacti.
Munin будет контролировать использование диска и отправлять сигналы тревоги. Графики будут похожи на те, что вы получили бы с cacti / RRD, поскольку Munin использует rrd для хранения. Я заменил nagios и mtrg на munin для многих вещей. Есть варианты использования нагио, которые не рассматриваются мунином.
Однажды мне пришлось сделать нечто подобное. Я решил проблему с помощью задания cron, которое каждую ночь запускало du в затронутой файловой системе и сохраняло указанный файл. Когда сервер заполняется, легко сравнить текущий du с одним из заархивированных и выяснить, что произошло. Это также дает отличную информацию о росте с течением времени для ваших будущих потребностей в оценке дисков.
Вы думали о мониторинге?
Возможно, вам лучше использовать что-то лаговое Nagios для мониторинга вашего сервера. И когда ваш диск, например, более 90%, вы получаете электронное письмо примерно так.
В этом решении вы можете использовать CACTI для просмотра и ведения истории, но Nagios предупреждает вас, если у вас есть одно или несколько критических состояний, например, когда у вас 70% дискового пространства, предупреждение и 90% критическое предупреждение.
И с помощью Nagios это только пример, вы можете контролировать все свои Linux-серверы с помощью одного приложения, а не только диски.