Назад | Перейти на главную страницу

Wget - загрузить все ссылки из http-расположения (не рекурсивно)

У меня есть ссылка на страницу http, которая имеет такую ​​структуру:

Родительский каталог -
[DIR] _OLD / 01-фев-2012 06:05 -
[DIR] _Jan / 01-Feb-2012 06:05 -
[DIR] _Dec / 01-янв-2012 06:05 -
...... [DIR] _Apr / 01-May-2011 06:05 -
[DIR] _Mar / 01-Apr-2011 06:05 -
[DIR] _Feb / 01-Mar-2011 06:05 -
[DIR] WEB-INF / 21 августа 2009 13:44 -
[] nohup_XXX_XXX21.out 14 февраля 2012 г. 09:05 1,6M
[] XXX_XXX21.log 14 февраля 2012 г. 09:04 64K
[] XXX_XXX21_access.log 14 февраля 2012 г. 08:31 8,0K
[] XXX_XXX21_access.log00013 14 февраля 2012 г., 00:01 585K

Я хочу загрузить только те файлы, которые находятся в корневом каталоге ... файлы xxxx.

У меня есть решение, использующее

curl -U Mozilla http://yourpage.com/bla.html > page
grep -o http://[^[:space:]]*.*log* page > links
wget -i link

но мне интересно, это невозможно сделать только с помощью wget?

Все файлы из корневого каталога соответствуют шаблону * .log *:

wget --user-agent=Mozilla --no-directories --accept='*.log*' -r -l 1 http://yourpage.com/bla.html
  • --user-agent = Mozilla устанавливает заголовок User-Agent
  • --no-directoryies сохранить все файлы в текущем каталоге
  • --accept = '*. log' принятые расширения (шаблон)
  • -r рекурсивный
  • -l 1 один уровень рекурсии

Вы избегаете поиска html-ссылок (что может быть подвержено ошибкам) ​​за счет еще нескольких запросов к серверу.