Назад | Перейти на главную страницу

Экономичное долгосрочное архивирование видео и изображений? ~ 50 ТБ

Моя лаборатория находится в процессе настройки небольшого сервера, на котором хранятся данные (в основном видео и изображения, а также несколько документов) для проекта, над которым наша группа работает в данный момент. Исторически сложилось так, что после завершения исследовательского проекта данные случайно попадают в архив на одном жестком диске или на большой куче DVD (или компакт-дисков в былые времена), и / или часть видео попадает в кассеты Sony DV или даже Кассеты VHS (эта лаборатория работает с начала 90-х) ИЛИ смесь всего вышеперечисленного ...

Вопрос: Как лучше всего (1) объединить их ВСЕ в одном формате И на одном носителе и (2) какой носитель лучше всего подходит для долгосрочного архивирования таких данных при очень редком доступе (скажем, 30+ лет?)? К сожалению, у нас нет бюджета на уровне предприятия (мы всего лишь лаборатория из 10 человек), поэтому мы не можем делать то, что стоит сотни тысяч долларов.

Спасибо!

P.S. Учитывая, что наши старые видео и изображения имеют меньшее разрешение, но недавние огромны, я думаю, мы говорим о 30–40 ТБ для действительно старых данных, еще 10–20 ТБ для последних данных, а затем ежегодно добавляются около 5 ТБ.

К сожалению, для вас нет лучшего способа. 30-летнее архивирование цифровых носителей - очень сложная задача, требующая обычных инвестиций. Примерно единственные форматы, которые гарантированно будут читаемы через 30 лет, - это ASCII и UTF8, которые не являются видеоформатами. Форматы хранения меняются, 8-дорожечные ленты с катушкой на катушку, которые мы использовали 30 лет назад, в наши дни почти невозможно прочитать, хотя данные все еще находятся на ленте (есть интересная история о том, как НАСА восстановило ленточный накопитель 40-летней давности. чтобы получить некоторые недавно восстановленные / обнаруженные ленты данных Apollo). Лучше всего проводить периодические, я бы сказал, каждые 5 лет, оценки вашей архивной среды с достаточным бюджетом для преобразования старых форматов в новые форматы.

Вы, наверное, знаете лучше меня, но видео-ландшафт быстро меняется. Сейчас возможно онлайн-редактирование в реальном времени, хотя даже 10 лет назад это было возможно только на действительно хорошем оборудовании. Кто знает, как все будет выглядеть через 30 лет.

  • Установите архивное окно на 5 лет.
    • В ближайшее время должно хватить большого массива хранения (
      • большой и медленный диск на 50 ТБ можно купить менее чем за 70 тыс. долларов, возможно, намного дешевле.
      • Ленточный накопитель LTO5 и 50 лент (стоимостью более 50 ТБ) можно приобрести менее чем за 15 тысяч долларов.
  • В каком формате вы храните видео, решать вам.
  • Начните находить и конвертировать все свои старые вещи в это новое хранилище.
  • Через 5 лет сделайте еще одну полную оценку вашей архивной среды.
    • Какие форматы вы используете?
    • Какие новые форматы?
    • Какие кодеки кажутся тупиковыми, и какие носители вы храните в таком закодированном виде?
    • Решите, как вы собираетесь перейти на новые методы хранения (форматы данных, диск / лента / что-то еще), и потратите соответствующие средства.
  • Повторить 6 раз.

Это должно привести вас к 30 годам.

Я полностью согласен с сообщением sysadmin1138 во всех отношениях, за исключением одной оговорки - я не думаю, что у вас будет бюджет, чтобы действительно достичь того, чего вы хотите.

Вам необходимо создать 5 основных функций;

  • стандартизированная политика в отношении контента и каталога - я знаю, что вы хотите хранить все в одном формате, но вам действительно стоит рассмотреть два - PDF для изображений и H.264 для видео - оба являются форматами с долгосрочной поддержкой с многоплатформенным кодом, который почти безусловно, поддерживаться той или иной стороной в течение 25-50 лет в их нынешнем виде просто из-за существующего использования во всем мире.
  • каталог или CMS для индексации и публикации контента.
  • система «приема контента» - она ​​будет принимать все ваши медиафайлы, упаковывать, кодировать, хранить и обновлять каталог для каждой новой части контента. Вам также понадобится ручная или автоматическая проверка качества контента.
  • основное хранилище контента - это будет два основных блока хранения; один маленький, чтобы хранить исходный контент, пока он перекодируется / проверяется, и гораздо больший блок, чтобы держать контент «рядом». Это одно из единственных подходящих вариантов использования RAID 6, с которыми я столкнулся, но я стараюсь использовать диски корпоративного качества с рабочим циклом 24x365.
  • система долгосрочного резервного копирования - здесь будут потрачены реальные деньги, вам нужно будет выбрать поставщика, который предлагает действительно долгосрочное резервное копирование. Если бы я делал это прямо сейчас, я бы по-прежнему использовал ленту поверх диска исключительно из соображений долговечности данных, возможно, от IBM, поскольку у них большой опыт в этой области. Вы также должны учитывать, что вам также необходимо регулярно восстанавливать ленту и проверять данные, а это означает, что вам понадобится третий блок хранения, по крайней мере, такой же большой, как самая большая лента, которая у вас есть, и, конечно же, системы для проверки. Вдобавок к этому вам необходимо убедиться, что программное обеспечение для резервного копирования, которое вы используете, тоже будет существовать в течение длительного времени, что-то вроде TAR on * nix, вероятно, будет какое-то время, но оно может функционально не дать вам то, что вы хотите, поэтому убедитесь, что это не упустил из виду ваш поставщик лент.

Так что то, что вы хотите сделать, можно сделать, я сам делал это несколько раз за последние два десятилетия или около того, но, боюсь, ни один из них не был дешевым.

Удачи.

Другие дали хороший совет о том, как поддержать ваши СМИ. Я предлагаю вам потратить некоторое время на изучение библиотеки руководящих принципов конгресса:

http://www.digitalpreservation.gov/formats/index.shtml

Вы также можете подумать о создании дешевого массива ZFS белого ящика. Вероятно, вы могли бы сделать что-нибудь для себя менее чем за 10 тысяч долларов. Когда диски умирают, замените их на диски большего размера, чтобы объем вашей памяти увеличивался по мере создания данных. Это, вероятно, позволит вам работать надолго, и вы можете заменить его устройством большей емкости, когда оно устареет. Преимущество состоит в том, что ваши данные находятся в сети (и поэтому к ним можно получить доступ по мере необходимости) и относительно хорошо защищены от битрота, что является серьезной проблемой, когда у вас есть такой большой объем данных.

Здесь собрали достойный вариант сборки:

http://www.zfsbuild.com/

Как бы сложно это ни было для технологов, я бы рекомендовал сразу перестать думать о дисках и технике. Разбейте свою бизнес-проблему на вещи, по которым вы должны принять решение.

Пример:

  • Как вы собираетесь справиться с преобразованием аналоговых / разных цифровых форматов лент в цифровые носители, которые можно будет хранить на каком-то цифровом хранилище?
  • Как вы собираетесь управлять контентом и связанными с ним метаданными? Хранение - это просто - вы можете поместить все на ленту LTO и хранить ее в старой соляной шахте, но у вас не будет доступа к данным.
  • Вы изобретаете колесо заново? Если вы учитесь в университете, есть ли уже централизованные решения для управления контентом? Или, если вам нужно купить / создать собственное управление контентом, есть ли централизованная инфраструктура, которую вы можете купить? (Лента, объектное хранилище, SAN)
  • Каковы реальные бизнес-требования? Что вы действительно хотите сохранить и почему? Часто, когда вы действительно вникаете в суть вопроса, реальные требования к долгосрочному хранению на самом деле применяются только к небольшому подмножеству данных.

Имейте в виду, что если вы сохраняете данные в формате с потерями, а затем конвертируете в другой формат с потерями, а затем в другой, качество вашего видео будет ухудшаться с каждым переходом.

Ниже говорится об аудио, но в целом применимо то же самое:

Вы можете конвертировать любой аудиоформат в Ogg Vorbis. Однако преобразование из одного формата с потерями, например MP3, в другой формат с потерями, например Vorbis, как правило, является плохой идеей. Кодеры MP3 и Vorbis достигают высоких степеней сжатия, отбрасывая части звуковой волны, которые вы, вероятно, не услышите. Однако кодеки MP3 и Vorbis очень разные, поэтому каждый из них отбрасывает разные части звука, хотя, безусловно, есть некоторое перекрытие. Преобразование MP3 в Vorbis включает декодирование файла MP3 обратно в несжатый формат, например WAV, и его повторное сжатие с помощью кодировщика Ogg Vorbis. В декодированном MP3 будут отсутствовать части исходного звука, которые кодировщик MP3 решил отбросить. Затем кодер Ogg Vorbis отбрасывает другие аудиокомпоненты при сжатии данных. В лучшем случае результатом будет файл Ogg, который звучит так же, как ваш исходный MP3, но наиболее вероятно, что полученный файл будет звучать хуже, чем ваш исходный MP3. Ни в коем случае вы не получите файл, который звучит лучше оригинального MP3.

Поскольку многие музыкальные плееры могут воспроизводить файлы MP3 и Ogg, нет причин, по которым вам нужно переключать все файлы в тот или иной формат. Если вам нравится Ogg Vorbis, мы рекомендуем вам использовать его при кодировании из исходных аудиоисточников без потерь (например, компакт-дисков). При кодировании из оригиналов вы обнаружите, что можете создавать файлы Ogg меньшего размера или лучшего качества (или того и другого), чем ваши MP3.

(Если вам абсолютно необходимо конвертировать из MP3 в Ogg, на Freshmeat доступно несколько сценариев конвертации.)

http://www.vorbis.com/faq/#transcode

Поэтому, вероятно, лучше всего выбрать формат без потерь, потому что, выбрав один формат с потерями, вы застряли с ним.

Возможно, мне чего-то не хватает, не могли бы вы закодировать все в открытом формате, в котором доступен исходный код кодеков, а затем просто вставить все это на Amazon S3?

Таким образом, Amazon придется беспокоиться о фактическом хранении данных, и, если через 30 лет не будет компьютеров, способных компилировать C / C ++, вы сможете получить информацию ...