Назад | Перейти на главную страницу

Используете wget для подсчета страниц под ссылкой?

Я использовал инструмент сопоставления сайтов, чтобы получить простой подсчет ссылок под определенным URL-адресом. Бесплатная пробная версия закончилась, поэтому я полагаю, что вместо того, чтобы платить 70 долларов за очень простую функциональность, я должен просто использовать wget.

Вот что у меня есть на данный момент: wget --spider --recursive http://url.com/

Однако я не уверен, как каким-то образом подсчитать количество найденных ссылок. Я также немного нервничаю, что это делает то, что я хочу - будут ли ссылки ниже домена url.com?

Есть идеи, как этого добиться?

Спасибо.

wget web-crawler

sudo apt-get install lynx-cur


lynx --dump http://serverfault.com -listonly |head
   1. http://serverfault.com/opensearch.xml
   2. http://serverfault.com/feeds
   3. http://stackexchange.com/
   4. http://serverfault.com/users/login
   5. http://careers.serverfault.com/
   6. http://blog.serverfault.com/
   7. http://meta.serverfault.com/
   8. http://serverfault.com/about
   9. http://serverfault.com/faq
  10. http://serverfault.com/

И так далее.

Изменить: для ленивого OP.

tom@altoid ~ $ lynx -dump -nonumbers -listonly http://serverfault.com|egrep -v "^$"|egrep -v "(Visible|Hidden) links"| while read link; do echo -n "$link   :" ;curl -I -s $link |grep HTTP; done
Visible links   :HTTP/1.1 200 OK
HTTP/1.1 200 OK
http://serverfault.com/opensearch.xml   :HTTP/1.1 200 OK
http://serverfault.com/feeds   :HTTP/1.1 200 OK
http://stackexchange.com/   :HTTP/1.1 200 OK
http://serverfault.com/users/login   :HTTP/1.1 200 OK
http://careers.serverfault.com/   :HTTP/1.1 302 Found
http://blog.serverfault.com/   :HTTP/1.1 200 OK

Лучше?!