Назад | Перейти на главную страницу

Стратегия резервного копирования миллионов файлов во множестве каталогов

У нас есть миллионы файлов во множестве каталогов, например:

\00\00\00\00.txt
\00\00\00\01.pdf
\00\00\00\02.html
... so on
\05\55\12\31.txt

их резервное копирование на ленту происходит медленно, так как резервное копирование данных в этом формате намного медленнее, чем резервное копирование одного большого файла.

Общее количество файлов на диске и относительный размер каждого файла влияют на производительность резервного копирования. Самое быстрое резервное копирование происходит, когда на диске меньше файлов большого размера. Самое медленное резервное копирование происходит, когда на диске содержатся тысячи небольших файлов. Руководство администратора Backup Exec.

Может ли значительно повыситься производительность резервного копирования за счет создания виртуального жесткого диска, размещения на нем данных после подключения и резервного копирования vhd?

Я не уверен, повлияют ли на это базовые данные в VHD.

в чем недостатки этого метода?

Решил сам это проверить.

Для теста я создал виртуальный жесткий диск емкостью 25 ГБ на сервере 2008R2 и прикрепил его.

Затем я заполнил его данными объемом 20 ГБ. 129000 файлов в 1318 каталогах.

Затем я выполнил задание резервного копирования содержимого VHD. Затем я отсоединил VHD и сделал резервную копию самого файла VHD.

Ниже приведены результаты.

Data           Elapsed  Byte Count   Job Rate
VHD            00:09:51 25.0 GB      14,222.00 MB/min
VHD Contents   00:07:38 20.2 GB      9,557.00 MB/min

Истекшее время больше для файла VHD, однако при масштабировании до фактических размеров, с которыми я имею дело, я уверен, что увеличенная скорость работы возьмет верх.

Кроме того, скорость работы с содержимым VHD кажется выше, чем я ожидал. На это может повлиять кеш из-за недавнего создания файлов или чего-то еще, но я не могу подтвердить это прямо сейчас, поскольку основное задание связано с другими данными резервного копирования.

На данный момент у меня нет времени или необходимости исследовать это дальше, хотя я могу вернуться к этому когда-нибудь в будущем.

Хранение большого количества небольших файлов в файловой системе, которая сама хранится в виде файла, имеет некоторые потенциальные преимущества.

Если формат этого файла разреженный, то изначально резервное копирование будет быстрее. Однако со временем, когда файлы создаются и удаляются, разреженное изображение может не оставаться таким разреженным. В конечном итоге образ может оказаться намного больше, чем файлы внутри, что, конечно же, тратит впустую пространство как на диске, так и на ленте, и замедляет резервное копирование по сравнению со скоростью, когда образ был новым.

Еще один недостаток образа заключается в том, что при его резервном копировании в то время, когда выполняются какие-либо записи в файловую систему внутри образа, вы можете получить резервную копию, целостность которой не сохраняется.