У меня около двадцати серверов с разными веб-приложениями. Каждые 4 часа бегает rsnapshot
задача и выполняет их резервное копирование на резервный сервер.
Сегодня случайно я обнаружил, что резервное копирование не удалось последние 4 дня из-за сбоя ввода / вывода в файловой системе. fsck
исправлена проблема, однако потеряны 4 дня резервного копирования.
Есть ли способ проверить, в порядке ли резервное копирование?
Прямо сейчас использую munin
система мониторинга, если это имеет значение, хотя она проверяет только работоспособность сервера (память, процессор, жесткий диск и т. д.) без каких-либо программных проверок. Я могу интегрировать скрипт, который будет проверять FATAL ERROR
s записей в журнале rsnapshot, но я не уверен, что этого будет достаточно?
Может быть, есть система для загрузки среды из резервной копии для проверки ее целостности. К сожалению, я не нашел достаточно информации об этом.
Убедитесь, что вы также контролируете свободное пространство в файловой системе, отслеживаете системные журналы на наличие критических / серьезных сообщений, вывод SMART для ваших дисков, сети и служб резервного копирования (ssh / rsync).
Что касается проверки резервных копий, вы можете настроить среду веб-приложений параллельно и периодически восстанавливать резервную копию. Ваши резервные копии так же хороши, как и ваше восстановление.