Назад | Перейти на главную страницу

Как я могу заставить wget загружать только страницы, а не изображения css и т. Д.?

Я хочу загрузить весь веб-сайт с помощью wget, но не хочу, чтобы wget загружал изображения, видео и т. Д.

Я попытался

wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

но когда я это делаю, он не загружает файлы .php, а просто загружает статические файлы .html.

Есть ли решение этой проблемы с помощью wget?

Вы явно указали wget, чтобы он принимал только файлы с .html как суффикс.

Предполагая, что на страницах php есть .php, ты можешь сделать это:

wget -bqre robots=off -A.html,.php example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

Обратите внимание, что при этом будет загружен визуализированный html, а не исходный файл php. Если страница достаточно динамична, вы можете не получить ожидаемый результат визуализации.

Однако я бы предложил другой инструмент, такой как httrack может работать лучше - это зависит от того, что именно вам нужно делать.

-A принимает список, поэтому -A.html, .php должны соответствовать всем требованиям. Вам также следует заглянуть в -R (он также принимает список отклоненных).

Да, есть, и это довольно просто. Взгляните на этот ТАК-ответ: https://superuser.com/questions/709702/how-to-crawl-using-wget-to-download-only-html-files-ignore-images-css-js

tl / dr; использовать --follow-tags=a который будет следовать только a теги.