У кого-нибудь есть хорошее предложение для прямой синхронизации с HDFS? ("прямая синхронизация" в отличие от "двунаправленной синхронизации")
В основном у меня есть большое количество файлов, которые я хочу поместить в HDFS. Он настолько велик, что я часто, скажем, теряю соединение до того, как он закончится. Я хотел бы просто сделать «резюме» загрузки файла. тем не мение hadoop fs -put
просто снова загрузит весь каталог (или пожалуется, если он существует).
У кого-нибудь есть хороший способ продолжить неполную загрузку hdfs?
Если вы используете достаточно новый Hadoop, вы можете смонтировать hdfs с помощью FUSE и просто использовать rsync.
Также возможно создать локальный hdfs, а затем использовать distcp.