У меня есть несколько выделенных серверов с неиспользуемым пространством. 16 ГБ + RAM, у некоторых есть SSD, у других HDD. У всех есть соединение минимум 100 Мбит / с. ОС - Debian 7 64bit. Между машинами нет LAN-соединения (только WAN).
Я хочу создать самовоспроизводящееся хранилище, потому что сложно вручную загружать выбранные файлы и помнить, где они находятся, когда вам нужны эти файлы. Что-то вроде ковшей S3 было бы идеально. Он должен быть бесплатным (как в пиве), относительно простым в установке и иметь аутентификацию между узлами (только соединение WAN).
Файлы, которые мне нужно сохранить, имеют размер до нескольких гигабайт (резервная копия от 50 до 15 ГБ * .tar.gz).
Хадуп или HDFS - хороший выбор?
На самом деле Hadoop не предназначен для распределенного доступа к FS через WAN. Его использование ориентировано на быстрые локальные сети с минимальной задержкой.
Если вы просто выполняете синхронизацию с несколькими удаленными местоположениями, где имеется отношение данных «один ко многим» (т. Е. Данные производятся в одном месте, и вы просто хотите распространить их для избыточности), вам, вероятно, лучше просто использовать rsync .