Есть ли официальный API для iplists.com откуда я могу получить список пауков?
Я намерен внести эти IP-адреса в белый список для очистки сайта.
Не знаю, и это может измениться в любой момент по усмотрению операторов ботов.
Google предлагает некоторые конкретные рекомендации и объяснения по этому поводу.:
Проблема в том, что если / когда диапазоны IP-адресов наших сканеров изменятся, не все будут знать, что нужно проверять. Фактически, группа сканирования перенесла IP-адреса робота Googlebot пару лет назад, и веб-мастерам, которые жестко запрограммировали диапазон IP-адресов, доставило немало хлопот.
и они предлагают использовать проверку DNS (вперед и обратный), чтобы проверить:
Сказать веб-мастерам использовать DNS для проверки в каждом конкретном случае кажется лучшим выходом. Я думаю, что рекомендуется выполнить обратный поиск DNS, убедиться, что имя находится в домене googlebot.com, а затем выполнить соответствующий прямой поиск DNS-> IP, используя это имя googlebot.com; например:
$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
$ host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
Я не думаю, что достаточно просто выполнить обратный поиск DNS, потому что спуфер может настроить обратный DNS, чтобы указать на crawl-a-b-c-d.googlebot.com.
Это, вероятно, лучший общий совет, но он довольно ресурсоемкий (циклы ЦП для поиска DNS).
Я не знаю списка IP-адресов для "хороших" роботов поисковых систем, и, если бы он был, он устарел бы очень быстро, как вы уже заметили.
Одно вы жестяная банка сделать - это создать ловушку для ботов. Теоретически это просто: вы создаете страницу, на которую есть ссылка на вашем веб-сайте, но которая скрыта от обычных пользователей (например, с помощью трюков CSS), а затем Disallow
это внутри robots.txt
. Ты тогда подожди неделю поскольку легитимные поисковые системы могут кэшировать robots.txt
на это время, затем начните запрещать все, что попадает на страницу-ловушку (например, с помощью fail2ban).