Есть ли умный способ удалить старые файлы из каталога hdfs / tmp? (На всякий случай я не говорю о unix FS / tmp)
hadoop fs -stat "%Y" "/path/*"
Будет выводить отметки времени всего в / path /. Используйте это вместе с сокращением того, что вы считаете слишком молодым, и вы можете очистить это в сценарии оболочки, запущенном cron.
Это может быть разумнее, чем анализ других вещей, выводимых командой hadoop fs.
Вот (исходный код) небольшого инструмента, который выполняет эту работу: https://github.com/mag-/hdfs-cleanup/
Я мог бы написать его самостоятельно (или перенести данный на Python), поэтому мне не нужно создавать цепочку сборки для Golang в моей компании.
И еще одно для пользователей Ruby: https://github.com/nmilford/clean-hadoop-tmp