Я начал отслеживать строки пользовательского агента на веб-сайте в начале каждого сеанса. Глядя на данные за этот месяц, я вижу бота поисковой системы, который постоянно появляется ...
Mozilla / 5.0 (совместимый; Baiduspider / 2.0; +http://www.baidu.com/search/spider.html)
С 01.09.2011 по 13.09.2011 я зарегистрировал 2090 обращений от этого пользовательского агента. Из других поисковых систем я отслеживаю гораздо меньшее количество посещений ...
Mozilla / 5.0 (совместимый; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) - 353
Mozilla / 5.0 (совместимый; Googlebot / 2.1; +http://www.google.com/bot.html) - 175
Mozilla / 5.0 (совместимый; bingbot / 2.0; +http://www.bing.com/bingbot.htm) - 110
www.baidu.com кажется китайской версией Google. Есть ли способ задушить их бота? Я не против того, чтобы они нас индексировали ... на самом деле, это, вероятно, хорошо, поскольку у нас много азиатского населения, использующего этот сайт, но, похоже, они делают это намного чаще.
Вы хотите задушить бота, но, кажется, не знаете ЗАЧЕМ вы хотите это сделать.
Вы испытываете влияние на производительность? Выталкивает ли вас трафик за пределы пропускной способности или порога передачи?
Задушение бота «просто потому» - пустая трата усилий. Если вам это не больно, я предлагаю вам оставить его в покое.
Если это вызывает проблемы, вы можете предпринять шаги, используя sitemaps.xml чтобы ограничить частоту сканирования ботом, или директивы robots.txt чтобы ограничить скорость сканирования. Обратите внимание, что оба из них можно игнорировать, что оставит вам только возможность заблокировать пользовательский агент, используя (например) правило Apache mod_rewrite - это также приведет к тому, что вы не будете индексироваться ...
Я вчера написал ответ на аналогичный вопрос: Блокировка строкой пользовательского агента в httpd.conf не действует
Что в основном говорит об этом:
Если вы не хотите, чтобы определенные пользовательские агенты (роботы) индексировали вас, выполните [эти] шаги. Если вы не хотите, чтобы ЛЮБОЙ робот индексировал вас, выполните [эти2] действия.
Он использует либо файл httpd.conf, либо, если проще, файл .htaccess и устанавливает некоторые правила перезаписи. Надеюсь, это будет вам полезно. Что касается ограничения количества раз, когда они могут вас проиндексировать, вам нужно (как и Google) доказать, что вы являетесь владельцем веб-сайта, затем зайти в их «инструменты для веб-мастеров» и выбрать очень низкие скорости индексирования. Но вот мой вклад:
<2-cents>
Unless the bots slow your server down, let it be. They don't hurt unless they are "bad bots" and access sensitive data.
</2-cents>
Удачи.