я пытался wget -m
wget -r
и еще куча вариаций. Я получаю некоторые изображения на http://site.com, один из скриптов и ни один из CSS, даже с fscking -p
параметр. Единственная HTML-страница - index.html, и есть еще несколько ссылок, поэтому я в недоумении. curlmirror.pl
на сайте разработчиков cURL, похоже, тоже не выполняет свою работу. Что-то мне не хватает? Я пробовал разные уровни рекурсии только с этим URL-адресом, но чувствую, что что-то упускаю. Короче говоря, некоторые школы позволяют своим ученикам представлять веб-проекты, но они хотят знать, как они могут собрать все для преподавателя, который будет его оценивать, вместо того, чтобы он посещал все сайты, размещенные за пределами школы.
ОБНОВИТЬ: Думаю, разобрался в проблеме. Я думал, что ссылки на другие страницы были на загруженной странице index.html. я был путь выкл. Оказывается, нижний колонтитул страницы, на которой есть все навигационные ссылки, обрабатывается файлом JavaScript. Include.js
, который гласит JLSSiteMap.js
и некоторые другие файлы JS для навигации по страницам и т.п. В результате wget не обрабатывает другие зависимости, потому что большая часть этого мусора обрабатывается не на веб-страницах. Как я могу работать с таким сайтом? Это один из нескольких проблемных случаев. Я полагаю, что мало что можно сделать, если wget не может анализировать JavaScript.
К сожалению, wget не может анализировать JavaScript, поэтому поиск такого сайта довольно затруднен.
Хорошая новость: поисковые системы обычно не разбирают его, поэтому они, скорее всего, скармливают поисковым системам немного другой контент (что плохо для другие причины), чтобы они могли проиндексировать свои страницы. Они должны кормить страницы поисковых систем, которые доступны без JavaScript, если они действительно хотят быть проиндексированы. Если это так, вы можете обойти это, подделав Googlebot с помощью wget, например:
wget --user-agent="Mozilla/5.0 (compatible; Googlebot/2.1; +http://www. google.com/bot.html)" ...
Очень немногие сайты действительно проверяют ваш IP-адрес, чтобы узнать, действительно ли вы робот Google, но это гораздо реже, чем следовало бы.
Еще нужно проверить наличие /sitemap.xml
файл и используйте его как список URL-адресов для сканирования. Некоторые сайты предоставляют этот файл для использования Google и другими поисковыми системами чтобы пропустить их контент, но ничто не говорит, что вы также не можете его использовать ...
Может быть, примерно так:
http://www.boutell.com/newfaq/creating/mirroring.html
или это:
http://fosswire.com/post/2008/04/create-a-mirror-of-a-website-with-wget/