У меня есть плоский файл размером 200 ГБ (одно слово в строке), и я хочу отсортировать файл, затем удалить дубликаты и создать из него один чистый окончательный файл TXT.
Я попытался sort
с участием --parallel
но он работал в течение 3 дней, и я был разочарован и убил процесс, так как я не видел никаких изменений в блоке файлов, которые он создал в / tmp.
Мне нужно как-то увидеть прогресс и убедиться, что он не застрял и работает. Как лучше всего это сделать? Существуют ли какие-либо инструменты Linux или проекты с открытым исходным кодом, посвященные чему-то подобному?