Я использовал инструмент сопоставления сайтов, чтобы получить простой подсчет ссылок под определенным URL-адресом. Бесплатная пробная версия закончилась, поэтому я полагаю, что вместо того, чтобы платить 70 долларов за очень простую функциональность, я должен просто использовать wget.
Вот что у меня есть на данный момент: wget --spider --recursive http://url.com/
Однако я не уверен, как каким-то образом подсчитать количество найденных ссылок. Я также немного нервничаю, что это делает то, что я хочу - будут ли ссылки ниже домена url.com
?
Есть идеи, как этого добиться?
Спасибо.
sudo apt-get install lynx-cur
lynx --dump http://serverfault.com -listonly |head
1. http://serverfault.com/opensearch.xml
2. http://serverfault.com/feeds
3. http://stackexchange.com/
4. http://serverfault.com/users/login
5. http://careers.serverfault.com/
6. http://blog.serverfault.com/
7. http://meta.serverfault.com/
8. http://serverfault.com/about
9. http://serverfault.com/faq
10. http://serverfault.com/
И так далее.
Изменить: для ленивого OP.
tom@altoid ~ $ lynx -dump -nonumbers -listonly http://serverfault.com|egrep -v "^$"|egrep -v "(Visible|Hidden) links"| while read link; do echo -n "$link :" ;curl -I -s $link |grep HTTP; done
Visible links :HTTP/1.1 200 OK
HTTP/1.1 200 OK
http://serverfault.com/opensearch.xml :HTTP/1.1 200 OK
http://serverfault.com/feeds :HTTP/1.1 200 OK
http://stackexchange.com/ :HTTP/1.1 200 OK
http://serverfault.com/users/login :HTTP/1.1 200 OK
http://careers.serverfault.com/ :HTTP/1.1 302 Found
http://blog.serverfault.com/ :HTTP/1.1 200 OK
Лучше?!