Назад | Перейти на главную страницу

Что делать с поддельными пользовательскими агентами? Скребки под видом пауков

Я следил за несколькими пауками в наших журналах, и я провел трассировку их IP-адресов, чтобы узнать, что они на самом деле являются экземплярами EC2. Пользовательские агенты указаны как Google bot и msnbot, но они не являются ip-адресами Google или MS. Могу ли я что-нибудь сделать? Спуфинг пользовательских агентов - обычная практика? Я предполагаю, что если я забаню их ip (что я и сделал), они просто запустят новый экземпляр и продолжат. Однако я не хочу запрещать все экземпляры EC2.

scraping

Когда вы действительно начнете копаться в журналах, вы обнаружите, что огромное количество роботов подделывают заголовки; большинство из них подменяют IE (некоторые из них безуспешно; опечатки быстро обнаруживают строку вашего агента!).

Есть интересный эксперимент EFF, который рассматривает уникальную идентификацию пользователей с помощью данных, представленных браузером: Panopticlick. Сбор дополнительной информации на уровне приложения для попытки блокировки потенциально может привести вас куда-нибудь, поскольку узлы, не являющиеся браузерами, не смогут вернуть некоторые из этих полей.

Но в том же смысле, что блокировка их IP-адресов вряд ли будет работать долго, попытка блокировки на основе пользовательского агента (или любых других уникальных критериев) вряд ли будет работать долго, если они полны решимости вас спровоцировать. В конце концов, попытки заблокировать каждого бота-мошенника в сети не будут стоить вашего времени и энергии; просто настройте свой файл robots.txt, следите за неприятностями, пытающимися ударить вас с помощью SQL-инъекции или чего-то подобного, и отдыхайте спокойно.