Моя лаборатория находится в процессе настройки небольшого сервера, на котором хранятся данные (в основном видео и изображения, а также несколько документов) для проекта, над которым наша группа работает в данный момент. Исторически сложилось так, что после завершения исследовательского проекта данные случайно попадают в архив на одном жестком диске или на большой куче DVD (или компакт-дисков в былые времена), и / или часть видео попадает в кассеты Sony DV или даже Кассеты VHS (эта лаборатория работает с начала 90-х) ИЛИ смесь всего вышеперечисленного ...
Вопрос: Как лучше всего (1) объединить их ВСЕ в одном формате И на одном носителе и (2) какой носитель лучше всего подходит для долгосрочного архивирования таких данных при очень редком доступе (скажем, 30+ лет?)? К сожалению, у нас нет бюджета на уровне предприятия (мы всего лишь лаборатория из 10 человек), поэтому мы не можем делать то, что стоит сотни тысяч долларов.
Спасибо!
P.S. Учитывая, что наши старые видео и изображения имеют меньшее разрешение, но недавние огромны, я думаю, мы говорим о 30–40 ТБ для действительно старых данных, еще 10–20 ТБ для последних данных, а затем ежегодно добавляются около 5 ТБ.
К сожалению, для вас нет лучшего способа. 30-летнее архивирование цифровых носителей - очень сложная задача, требующая обычных инвестиций. Примерно единственные форматы, которые гарантированно будут читаемы через 30 лет, - это ASCII и UTF8, которые не являются видеоформатами. Форматы хранения меняются, 8-дорожечные ленты с катушкой на катушку, которые мы использовали 30 лет назад, в наши дни почти невозможно прочитать, хотя данные все еще находятся на ленте (есть интересная история о том, как НАСА восстановило ленточный накопитель 40-летней давности. чтобы получить некоторые недавно восстановленные / обнаруженные ленты данных Apollo). Лучше всего проводить периодические, я бы сказал, каждые 5 лет, оценки вашей архивной среды с достаточным бюджетом для преобразования старых форматов в новые форматы.
Вы, наверное, знаете лучше меня, но видео-ландшафт быстро меняется. Сейчас возможно онлайн-редактирование в реальном времени, хотя даже 10 лет назад это было возможно только на действительно хорошем оборудовании. Кто знает, как все будет выглядеть через 30 лет.
Это должно привести вас к 30 годам.
Я полностью согласен с сообщением sysadmin1138 во всех отношениях, за исключением одной оговорки - я не думаю, что у вас будет бюджет, чтобы действительно достичь того, чего вы хотите.
Вам необходимо создать 5 основных функций;
Так что то, что вы хотите сделать, можно сделать, я сам делал это несколько раз за последние два десятилетия или около того, но, боюсь, ни один из них не был дешевым.
Удачи.
Другие дали хороший совет о том, как поддержать ваши СМИ. Я предлагаю вам потратить некоторое время на изучение библиотеки руководящих принципов конгресса:
http://www.digitalpreservation.gov/formats/index.shtml
Вы также можете подумать о создании дешевого массива ZFS белого ящика. Вероятно, вы могли бы сделать что-нибудь для себя менее чем за 10 тысяч долларов. Когда диски умирают, замените их на диски большего размера, чтобы объем вашей памяти увеличивался по мере создания данных. Это, вероятно, позволит вам работать надолго, и вы можете заменить его устройством большей емкости, когда оно устареет. Преимущество состоит в том, что ваши данные находятся в сети (и поэтому к ним можно получить доступ по мере необходимости) и относительно хорошо защищены от битрота, что является серьезной проблемой, когда у вас есть такой большой объем данных.
Здесь собрали достойный вариант сборки:
Как бы сложно это ни было для технологов, я бы рекомендовал сразу перестать думать о дисках и технике. Разбейте свою бизнес-проблему на вещи, по которым вы должны принять решение.
Пример:
Имейте в виду, что если вы сохраняете данные в формате с потерями, а затем конвертируете в другой формат с потерями, а затем в другой, качество вашего видео будет ухудшаться с каждым переходом.
Ниже говорится об аудио, но в целом применимо то же самое:
Вы можете конвертировать любой аудиоформат в Ogg Vorbis. Однако преобразование из одного формата с потерями, например MP3, в другой формат с потерями, например Vorbis, как правило, является плохой идеей. Кодеры MP3 и Vorbis достигают высоких степеней сжатия, отбрасывая части звуковой волны, которые вы, вероятно, не услышите. Однако кодеки MP3 и Vorbis очень разные, поэтому каждый из них отбрасывает разные части звука, хотя, безусловно, есть некоторое перекрытие. Преобразование MP3 в Vorbis включает декодирование файла MP3 обратно в несжатый формат, например WAV, и его повторное сжатие с помощью кодировщика Ogg Vorbis. В декодированном MP3 будут отсутствовать части исходного звука, которые кодировщик MP3 решил отбросить. Затем кодер Ogg Vorbis отбрасывает другие аудиокомпоненты при сжатии данных. В лучшем случае результатом будет файл Ogg, который звучит так же, как ваш исходный MP3, но наиболее вероятно, что полученный файл будет звучать хуже, чем ваш исходный MP3. Ни в коем случае вы не получите файл, который звучит лучше оригинального MP3.
Поскольку многие музыкальные плееры могут воспроизводить файлы MP3 и Ogg, нет причин, по которым вам нужно переключать все файлы в тот или иной формат. Если вам нравится Ogg Vorbis, мы рекомендуем вам использовать его при кодировании из исходных аудиоисточников без потерь (например, компакт-дисков). При кодировании из оригиналов вы обнаружите, что можете создавать файлы Ogg меньшего размера или лучшего качества (или того и другого), чем ваши MP3.
(Если вам абсолютно необходимо конвертировать из MP3 в Ogg, на Freshmeat доступно несколько сценариев конвертации.)
http://www.vorbis.com/faq/#transcode
Поэтому, вероятно, лучше всего выбрать формат без потерь, потому что, выбрав один формат с потерями, вы застряли с ним.
Возможно, мне чего-то не хватает, не могли бы вы закодировать все в открытом формате, в котором доступен исходный код кодеков, а затем просто вставить все это на Amazon S3?
Таким образом, Amazon придется беспокоиться о фактическом хранении данных, и, если через 30 лет не будет компьютеров, способных компилировать C / C ++, вы сможете получить информацию ...