Назад | Перейти на главную страницу

Как обновить зеркало веб-сайта, созданное с помощью `wget --mirror`?

Месяц назад я использовал "wget - зеркало«для создания зеркала нашего общедоступного веб-сайта для временного использования во время предстоящего планового периода обслуживания. Наш основной веб-сайт работает с HTML, PHP и MySQL, но зеркало должно быть только для HTML, без динамического содержимого, PHP или базы данных.

Следующая команда создаст простое онлайн-зеркало нашего веб-сайта:

wget --mirror http://www.example.org/

Обратите внимание, что Wget руководство говорит --mirror "в настоящее время эквивалентно -r -N -l inf --no-remove-listing"(Удобочитаемый эквивалент:` --recursive --timestamping --level = inf --no-remove -isting.

Сейчас прошел месяц, и большая часть контента сайта изменилась. Я хочу, чтобы wget проверил все страницы и загрузил все изменившиеся страницы. Однако это не работает.

Мой вопрос:

Что мне нужно сделать, чтобы обновить зеркало веб-сайта, кроме удаления каталога и повторного запуска зеркала?

Файл верхнего уровня в http://www.example.org/index.html не изменился, но есть много других файлов, иметь изменилось.

Я думал, что все, что мне нужно сделать, это перезапустить wget --mirror, так как --mirror подразумевает флаги --recursive "указать рекурсивную загрузку" и --timestamping «Не загружайте повторно файлы, если они не новее локальных». Я думал, что это проверит все страницы и получит только те файлы, которые новее моих локальных копий. Я ошибся?

Однако wget не выполняет рекурсию сайта со второй попытки. 'wget --mirror' проверит http://www.example.org/index.html , обратите внимание, что эта страница не изменилась, а затем остановитесь.

--2010-06-29 10:14:07--  http://www.example.org/
Resolving www.example.org (www.example.org)... 10.10.6.100
Connecting to www.example.org (www.example.org)|10.10.6.100|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Server file no newer than local file "www.example.org/index.html" -- not retrieving.

Loading robots.txt; please ignore errors.
--2010-06-29 10:14:08--  http://www.example.org/robots.txt
Connecting to www.example.org (www.example.org)|10.10.6.100|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 136 [text/plain]
Saving to: “www.example.org/robots.txt”

     0K                                                       100% 6.48M=0s
2010-06-29 10:14:08 (6.48 MB/s) - "www.example.org/robots.txt" saved [136/136]

--2010-06-29 10:14:08--  http://www.example.org/news/gallery/image-01.gif
Reusing existing connection to www.example.org:80.
HTTP request sent, awaiting response... 200 OK
Length: 40741 (40K) [image/gif]
Server file no newer than local file "www.example.org/news/gallery/image-01.gif" -- not retrieving.

FINISHED --2010-06-29 10:14:08--
Downloaded: 1 files, 136 in 0s (6.48 MB/s)

Следующее обходное решение пока работает. Он принудительно удаляет /index.html, что заставляет wget снова проверять все дочерние ссылки. Однако не следует ли wget автоматически проверять все дочерние ссылки?

rm www.example.org/index.html && wget --mirror http://www.example.org/
wget –mirror –w 3 –p –P c:\wget_files\example2 ftp://username:password@ftp.yourdomain.com

Вот как я это делаю на машине с Windows http://www.devarticles.com/c/a/Web-Services/Website-Mirroring-With-wget/1/

Вы можете изменить путь к структуре каталогов, попробовать загрузить весь контент через FTP и посмотреть, поможет ли это.

Я также использую другую утилиту для Windows "AllwaySync", отлично работает.

Я использую переключатель --mirror, чтобы делать именно то, о чем вы спрашиваете, что действительно заставляет wget рекурсивно загружать только новые файлы. В частности, моя командная строка (очищенная):

/usr/bin/wget -v --mirror ftp://user:password@site/ -o /var/log/webmirror -P /var/WebSites

Вы можете попробовать использовать:

wget -r -l inf -N http://www.example.org/