Я хочу разработать автоматизированный процесс для проверки того, что на каждой машине в нашем домене выполняется резервное копирование. Мне интересно, как это делают другие люди.
У нас есть SAN (виртуализированные серверы Windows и Linux и три сервера SQL) и пара NAS в нашем центре обработки данных, пара десятков физических контроллеров домена в полевых условиях (Win Server 2016) и несколько сотен рабочих станций (скоро все будут Win 10). Мы храним снимки состояния Veam локально в течение месяца, а затем отправляем их в AWS.
Недавно нам потребовалось восстановить файл Excel, который использовался для обновления таблицы на одном из наших SQL-серверов. Мы потерпели неудачу. На общем ресурсе NAS, где находился файл, не выполнялось резервное копирование. Когда мы создавали процесс резервного копирования, общий ресурс почти не использовался, и я уверен, что мы решили не создавать его специально. Но поскольку мы постепенно начали использовать эту долю для более важных вещей, мы не изменили процесс.
Затем мы попытались восстановить данные с SQL-сервера. Этот сервер был добавлен в прошлом году, и, пока выполнялось резервное копирование, мы пропустили ту часть, где мы отправили его в AWS, поэтому у нас он был только на месяц.
Мы должны были сделать резервную копию этой доли с самого начала - важно или нет. И мы должны были отправить новые резервные копии SQL в AWS. Я хочу сказать, что в нашем процессе слишком много мест для человеческих ошибок.
Одна из наших идей заключалась в том, чтобы получить каждую машину из Active Directory и выбрать «случайный» файл с каждого диска / общего ресурса (за исключением системных файлов и исполняемых файлов) и посмотреть, сможем ли мы найти его в наших резервных копиях. Мы могли автоматизировать процесс выбора с помощью PowerShell. Я не уверен в автоматизации проверки наших резервных копий, но, надеюсь, есть способ. Если бы нам пришлось делать это вручную для нескольких сотен файлов, было бы лучше, чем ничего.
Есть ли оптимальная практика для полноты резервного копирования? Есть ли что-то лучше, чем метод осторожности с людьми?
Выявление сбоев процессов и процедур, как это делаете вы, важно. Конструктивная критика способствует совершенствованию.
На общем ресурсе NAS, где находился файл, не выполнялось резервное копирование. Когда мы создавали процесс резервного копирования, общий ресурс почти не использовался, и я уверен, что мы решили не создавать его специально. Но поскольку мы постепенно начали использовать эту долю для более важных вещей, мы не изменили процесс.
Выберите стратегию резервного копирования для каждого тома хранилища, даже если это «без резервного копирования». Сообщайте пользователям, что является постоянным, а что временным. Резервное копирование всего не требуется, если известна долговечность каждого хранилища.
Также есть процесс для просмотра резервных копий по мере изменения процессов. Когда вы слышите о важных проектах, задавайте вопросы: «Где вы это сохранили?» и "Если файл исчезнет, какие проблемы это вызовет?"
Бэкапы бесполезны. Восстановление - это то, о чем вы заботитесь.
Сделайте восстановление обязательной частью планирования тестирования и обеспечения непрерывности бизнеса.
Бит проверки будет несколько ручным, так как вы хотите убедиться, что восстановление дает то, что люди захотят использовать. Но если пользователи действительно используют восстановленную систему, они обязательно обнаружат, что их важная электронная таблица отсутствует.
Не стесняйтесь добавлять автоматические проверки целостности, такие как проверка контрольной суммы файла и процедуры проверки СУБД. Но проверить пригодность данных для использования сложно. У вас может быть полностью действующий файл, но ему уже месяц, и организация не может его использовать. Или резервное копирование тома было намеренно не выполнено, но пользователи все равно помещали на него важные данные.