Назад | Перейти на главную страницу

Подсчет количества страниц на сайте

Как проще всего подсчитать количество страниц на веб-сайте? Я не хочу загружать локальную копию всего сайта, просто подсчитайте количество страниц на ней. Есть ли инструмент (или комбинация инструментов), который может сканировать все страницы и ссылки и выдавать результат?

Самый быстрый и грязный способ - зайти в Google и выполнить поиск, например:

site: mydomain.com

В этом примере показаны 232 известные страницы для fronde.com: http://i47.tinypic.com/j0h003.jpg

Это вернет количество страниц, о которых Google знает на этом сайте. Возможно, вам придется изменить настройки Google, чтобы включить все типы контента (отключите Безопасный поиск) и нажмите предупреждение «Некоторые результаты были пропущены», прежде чем оно даст вам наиболее точный счет.

Сделать это вручную сложнее. Чтобы обнаружить все страницы на определенном веб-сайте, вам необходимо загрузить целевую страницу, проанализировать ее на наличие ссылок, относящихся к одному и тому же веб-домену, а затем итеративно загрузить эти HTML-страницы и также сканировать их. Это продолжается итеративно, пока не будут проверены все ссылки.

Этот метод требует времени (хотя с помощью такого инструмента, как HTTrack, вы можете отключить загрузку содержимого, отличного от HTML, чтобы сэкономить время).

Этот метод также пропустит потерянные страницы, на которые нет ссылок с главной страницы сайта.

Это старая школа, но она будет работать. Рекурсивные вызовы этого должны помочь. http://search.cpan.org/dist/HTML-Parser/lib/HTML/LinkExtor.pm