Месяц назад я использовал "wget - зеркало«для создания зеркала нашего общедоступного веб-сайта для временного использования во время предстоящего планового периода обслуживания. Наш основной веб-сайт работает с HTML, PHP и MySQL, но зеркало должно быть только для HTML, без динамического содержимого, PHP или базы данных.
Следующая команда создаст простое онлайн-зеркало нашего веб-сайта:
wget --mirror http://www.example.org/
Обратите внимание, что Wget руководство говорит --mirror
"в настоящее время эквивалентно -r -N -l inf --no-remove-listing
"(Удобочитаемый эквивалент:` --recursive --timestamping --level = inf --no-remove -isting.
Сейчас прошел месяц, и большая часть контента сайта изменилась. Я хочу, чтобы wget проверил все страницы и загрузил все изменившиеся страницы. Однако это не работает.
Мой вопрос:
Что мне нужно сделать, чтобы обновить зеркало веб-сайта, кроме удаления каталога и повторного запуска зеркала?
Файл верхнего уровня в http://www.example.org/index.html не изменился, но есть много других файлов, иметь изменилось.
Я думал, что все, что мне нужно сделать, это перезапустить wget --mirror
, так как --mirror
подразумевает флаги --recursive
"указать рекурсивную загрузку" и --timestamping
«Не загружайте повторно файлы, если они не новее локальных». Я думал, что это проверит все страницы и получит только те файлы, которые новее моих локальных копий. Я ошибся?
Однако wget не выполняет рекурсию сайта со второй попытки. 'wget --mirror' проверит http://www.example.org/index.html , обратите внимание, что эта страница не изменилась, а затем остановитесь.
--2010-06-29 10:14:07-- http://www.example.org/
Resolving www.example.org (www.example.org)... 10.10.6.100
Connecting to www.example.org (www.example.org)|10.10.6.100|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Server file no newer than local file "www.example.org/index.html" -- not retrieving.
Loading robots.txt; please ignore errors.
--2010-06-29 10:14:08-- http://www.example.org/robots.txt
Connecting to www.example.org (www.example.org)|10.10.6.100|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 136 [text/plain]
Saving to: “www.example.org/robots.txt”
0K 100% 6.48M=0s
2010-06-29 10:14:08 (6.48 MB/s) - "www.example.org/robots.txt" saved [136/136]
--2010-06-29 10:14:08-- http://www.example.org/news/gallery/image-01.gif
Reusing existing connection to www.example.org:80.
HTTP request sent, awaiting response... 200 OK
Length: 40741 (40K) [image/gif]
Server file no newer than local file "www.example.org/news/gallery/image-01.gif" -- not retrieving.
FINISHED --2010-06-29 10:14:08--
Downloaded: 1 files, 136 in 0s (6.48 MB/s)
Следующее обходное решение пока работает. Он принудительно удаляет /index.html, что заставляет wget снова проверять все дочерние ссылки. Однако не следует ли wget автоматически проверять все дочерние ссылки?
rm www.example.org/index.html && wget --mirror http://www.example.org/
wget –mirror –w 3 –p –P c:\wget_files\example2 ftp://username:password@ftp.yourdomain.com
Вот как я это делаю на машине с Windows http://www.devarticles.com/c/a/Web-Services/Website-Mirroring-With-wget/1/
Вы можете изменить путь к структуре каталогов, попробовать загрузить весь контент через FTP и посмотреть, поможет ли это.
Я также использую другую утилиту для Windows "AllwaySync", отлично работает.
Я использую переключатель --mirror, чтобы делать именно то, о чем вы спрашиваете, что действительно заставляет wget рекурсивно загружать только новые файлы. В частности, моя командная строка (очищенная):
/usr/bin/wget -v --mirror ftp://user:password@site/ -o /var/log/webmirror -P /var/WebSites
Вы можете попробовать использовать:
wget -r -l inf -N http://www.example.org/