Назад | Перейти на главную страницу

Эффективный способ хранения большого количества похожих файлов

У меня много файлов размером ~ 1 ГБ (файлы дампа базы данных, сделанные через определенные промежутки времени). Сейчас я просто храню их все в одном каталоге, каждый файл заархивирован. У нас заканчивается место на диске, и мы хотим продолжать хранить старые. Игнорируя очевидное решение проблемы, заключающейся в том, чтобы тратить деньги на покупку большего количества дисков, есть ли какой-либо способ эффективно хранить их?

Каждый файл представляет собой файл дампа базы данных, который создается каждые полчаса, поэтому должно быть много дублированного содержимого. Есть ли какая-нибудь программа / процесс, который упростит это. Я не хочу пробовать новую файловую систему. Я играю с git & git-repack, но это требует много памяти. Есть что-нибудь попроще?

В дальнейшем вы можете делать инкрементные резервные копии своей базы данных, но они требуют больше времени для восстановления, и гораздо сложнее выполнить восстановление на определенный момент времени, если вам нужно провести аудит.

Как вы говорите, вы можете делать полный каждые 30 минут прямо сейчас, вы можете делать как инкрементное, так и полное каждые 30 минут, и оставлять только 6 или 24 часа, а также увеличивать на долгий срок. (теоретически, если вам нужна скорость восстановления, скорее всего, это будет сценарий аварийного восстановления, так как вам понадобится последняя версия).

Если у вас есть вопросы об инкрементных резервных копиях или других стратегиях резервного копирования, попробуйте обмен стеками баз данных.

Вы можете рассмотреть возможность хранения файлов с дедупликацией, поскольку в ваших данных должно быть много повторяющейся информации. Однако если вы выберете аппаратное решение от известного производителя, оно будет стоить вам намного дороже, чем просто стоимость дополнительных дисков. Хорошей новостью является то, что существует несколько инициатив с открытым исходным кодом, и одна из них - Опендуп. Их еще несколько, но у меня нет информации о них.

Другой альтернативой может быть использование программного обеспечения / службы резервного копирования, в которых уже используется какая-то дедупликация. В настоящее время мы используем решение на основе программного обеспечения Asigra, и мы ежедневно выполняем резервное копирование всех образов виртуальных машин VMware и добиваемся сокращения объема данных 1:10 при ежедневном хранении в течение 30 дней.

В дополнение к инкрементным резервным копиям вы также можете переместить старые резервные копии в архивное хранилище, близкое к линейному. Это может быть комбинация магнитной ленты, внешнего жесткого диска, оптического носителя (с оговорками) и т. Д.

Мой опыт показывает, что удобного доступа к рабочим резервным копиям вполне достаточно. Если вам требуется более быстрый доступ к резервным копиям, вы можете купить больше оборудования или автоматизировать некоторые этапы извлечения, чтобы ускорить процесс.