Я изучаю варианты более эффективного использования нашего основного хранилища.
Наш текущий NAS - это HP ProLiant DL380 G5 с HP Storageworks MSA20 и еще одна дисковая полка, я не уверен, что это такое.
Подавляющее большинство наших файлов - это файлы PDF (их сотни миллионов) с высокой степенью сходства.
В экспертное мнение Джорджа Крампа (ссылка на Data Domainс Dedupe Central) в разделе о гранулярности он говорит: «Чтобы дедупликация данных была эффективной, ее необходимо выполнять на уровне субфайла с использованием сегментов переменной длины».
Это сложно найти, но именно то, что мне нужно. Большинство параметров дедупликации, по-видимому, основаны на блоках, что очень хорошо работает для минимизации того, сколько места занимают резервные копии, поскольку сохраняются только измененные блоки, но блочные методы не находят идентичные сегменты, расположенные на разных смещениях внутри блоков нашего PDF-файлы.
Я наткнулся Ocarina Networks на днях, что похоже именно то, что нам нужно.
Обзор лабораторного отчета Storage Switzerland - Дедупликация основного хранилища сравнивает Ocarina Networks и NetApp как «два лидера в области дедупликации первичного хранилища».
В идеале мы хотели бы продолжить использование нашего текущего NAS, но гораздо более эффективно.
Другое решение, с которым я столкнулся, - Storwize, которые, кажется, выполняют встроенное сжатие отдельных файлов, интегрируясь с решениями для дедупликации.
Какие еще есть решения и информационные ресурсы?
Я обнаружил, что большинство «черных ящиков» для дедупликации не так эффективно и не так эффективно, как те, которые встроены непосредственно в хранилище.
Например, устройство устранения дублирования черного ящика потребует, чтобы все ваши данные прошли через него в обоих направлениях, прежде чем попасть в любое общее хранилище, которое вы используете, обрабатывая все это для устранения дублирования, тогда как массивы хранения, такие как NetApp, Data Domain, и многие другие, позволяют управлять дедупликацией для каждого тома, и вся обработка выполняется на самом контроллере.
Если вы настроены на использование существующего неинтеллектуального хранилища, но используете перед ним решение, я бы порекомендовал домен данных, но, честно говоря, я бы посоветовал вам перейти на другую систему хранения, которая может устранять дублирование внутри.
Я бы заглянул в NetApp серии V контроллеров хранения. Это позволяет вам подключить интеллектуальный дисковый контроллер к существующему оборудованию дисковой полки, которое у вас уже есть.
Я хорошо знаю диапазон MSA, и я думаю, что вам будет сложно выполнить дедупликацию с тем, что у вас есть, для начала дедупликация - это достаточно медленная и интенсивная работа с интенсивным вводом-выводом, которую лучше всего выполнять настоящие контроллеры SAN / NAS. Сценарий резервного копирования немного отличается, поскольку сервер резервного копирования может выполнять дедупликацию в процессе работы, но с живыми данными важно поддерживать целостность данных и общую производительность, и я не уверен, что есть что-то доступное в качестве «надстройки после выхода на рынок», которая Я действительно дам вам то, что вам нужно.
Технология, которую вы ищете, называется дедупликацией, и есть масса поставщиков, предлагающих дедупликацию.
Если вы используете SAN, позвоните своему поставщику SAN, и он разорится, пытаясь продать вам свои возможности дедупликации.
Вот хороший ресурс о том, как начать работу с дедупликацией:
Список Backup Central Дисковые цели для архивов
(Не путать с их более обширным списком Дисковые цели для резервного копирования)
Стоит отметить, что Окарина system просматривает исходную файловую систему и проверяет, соответствует ли файл политике. Если это так, коробка Ocarina расширяет файл и применяет свои собственные алгоритмы сжатия. Затем он записывает этот новый файл в новую другую файловую систему, при желании удаляя исходный файл.
Очевидно, сторона чтения может быть настроена с помощью файловой системы fuse, так что чтение исходной файловой системы может быть перехвачено с помощью fuse для использования «оптимизированной» версии, так что звучание будет намного более прозрачным, чем описанный исходный продавец.
FILEminimizer Server от balesio - это только программное решение, которое оптимизирует ваш стек файлов Office и изображений с сохранением исходного формата файлов. Вы можете освободить до 70 процентов вашего хранилища, которое в настоящее время занято этими файлами. www.balesio.com/fileminimizerserver