Назад | Перейти на главную страницу

IP-адрес пауков и «официальных» веб-ботов

Есть ли официальный API для iplists.com откуда я могу получить список пауков?

Я намерен внести эти IP-адреса в белый список для очистки сайта.

Не знаю, и это может измениться в любой момент по усмотрению операторов ботов.

Google предлагает некоторые конкретные рекомендации и объяснения по этому поводу.:

Проблема в том, что если / когда диапазоны IP-адресов наших сканеров изменятся, не все будут знать, что нужно проверять. Фактически, группа сканирования перенесла IP-адреса робота Googlebot пару лет назад, и веб-мастерам, которые жестко запрограммировали диапазон IP-адресов, доставило немало хлопот.

и они предлагают использовать проверку DNS (вперед и обратный), чтобы проверить:

Сказать веб-мастерам использовать DNS для проверки в каждом конкретном случае кажется лучшим выходом. Я думаю, что рекомендуется выполнить обратный поиск DNS, убедиться, что имя находится в домене googlebot.com, а затем выполнить соответствующий прямой поиск DNS-> IP, используя это имя googlebot.com; например:

$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

$ host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Я не думаю, что достаточно просто выполнить обратный поиск DNS, потому что спуфер может настроить обратный DNS, чтобы указать на crawl-a-b-c-d.googlebot.com.

Это, вероятно, лучший общий совет, но он довольно ресурсоемкий (циклы ЦП для поиска DNS).

Я не знаю списка IP-адресов для "хороших" роботов поисковых систем, и, если бы он был, он устарел бы очень быстро, как вы уже заметили.

Одно вы жестяная банка сделать - это создать ловушку для ботов. Теоретически это просто: вы создаете страницу, на которую есть ссылка на вашем веб-сайте, но которая скрыта от обычных пользователей (например, с помощью трюков CSS), а затем Disallow это внутри robots.txt. Ты тогда подожди неделю поскольку легитимные поисковые системы могут кэшировать robots.txt на это время, затем начните запрещать все, что попадает на страницу-ловушку (например, с помощью fail2ban).