Мы знаем, что можем заблокировать сканирование страниц веб-сайтов определенными пауками с помощью robots.txt или .htaccess или, возможно, через файл конфигурации Apache httpd.conf.
Но для редактирования может потребоваться большое количество сайтов на некоторых выделенных серверах, и боты по-прежнему будут «получать доступ» и потреблять ресурсы. Есть ли другие «безопасные» способы заблокировать этих пауков IMG от корня на серверах, таких как серверы Windows?
robots.txt не блокировать что угодно, поисковый робот должен обратить внимание на robots.txt или игнорировать его. Также нет центрального списка поисковых роботов, так как любой может запустить его по любой причине, и они могут отображаться как обычный трафик просмотра, утверждающий, что они исходят из обычного веб-браузера.
Вы можете выполнять базовые проверки рефереров, чтобы заблокировать хотлинкинг изображений, вы можете предотвращать вторжения, чтобы блокировать сканеры портов и вредоносные запросы, но если вы хотите блокировать пауков, а не людей и не ложные срабатывания, вам, вероятно, потребуется разместить свой сайт за страницей входа.
боты по-прежнему будут «получать доступ» и потреблять ресурсы.
Минимальные ресурсы. Вы будете часами внедрять, тестировать и возиться с политикой «блокировки пауков», и вместо этого вы можете потратить эти вложения на оборудование, которое сможет с ней справиться. На самом деле это должен быть фоновый шум.
Если пауки забивают ваш сайт, как он справится с реальными пользователями?