У меня есть старый веб-сайт, работающий на старой версии Oracle Portal, который нам нужно преобразовать в структуру с плоским HTML. Из-за повреждения сервера мы не можем получить доступ к административному интерфейсу, и даже если бы мы могли, нет функции экспорта, которая могла бы работать с современными версиями программного обеспечения.
Достаточно просканировать веб-сайт и сохранить все страницы и изображения в папку, но файловую структуру необходимо сохранить; то есть, если страница расположена по адресу http://www.oldserver.com/foo/bar/baz/mypage.html затем его нужно сохранить в /foo/bar/baz/mypage.html, чтобы различные биты Javascript продолжали работать.
Ни один из найденных мной поисковых роботов не смог этого сделать; все они хотят переименовать страницы (page01.html, page02.html и т. д.) и нарушить структуру папок.
Есть ли какой-нибудь поисковый робот, который воссоздает структуру сайта такой, какой она кажется пользователю, заходящему на сайт? Нет необходимости переделывать какое-либо содержимое страниц; после повторного размещения все страницы будут иметь те же имена, что и исходные, поэтому ссылки будут продолжать работать.
wget -r
рекурсивно получит весь веб-сайт и сохранит его локально в той же структуре.
Попробуйте HTTrack Website Copier: http://www.httrack.com/
(извините за отсутствие подробностей, слишком поздно / рано утром)