Я хочу загрузить весь веб-сайт с помощью wget, но не хочу, чтобы wget загружал изображения, видео и т. Д.
Я попытался
wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″
но когда я это делаю, он не загружает файлы .php, а просто загружает статические файлы .html.
Есть ли решение этой проблемы с помощью wget?
Вы явно указали wget, чтобы он принимал только файлы с .html
как суффикс.
Предполагая, что на страницах php есть .php
, ты можешь сделать это:
wget -bqre robots=off -A.html,.php example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″
Обратите внимание, что при этом будет загружен визуализированный html, а не исходный файл php. Если страница достаточно динамична, вы можете не получить ожидаемый результат визуализации.
Однако я бы предложил другой инструмент, такой как httrack может работать лучше - это зависит от того, что именно вам нужно делать.
-A принимает список, поэтому -A.html, .php должны соответствовать всем требованиям. Вам также следует заглянуть в -R (он также принимает список отклоненных).
Да, есть, и это довольно просто. Взгляните на этот ТАК-ответ: https://superuser.com/questions/709702/how-to-crawl-using-wget-to-download-only-html-files-ignore-images-css-js
tl / dr; использовать --follow-tags=a
который будет следовать только a
теги.