Назад | Перейти на главную страницу

нечетные строки запроса в запросах робота Google

Индексирующий бот Google (правка: да, это Google, IP разрешает), кажется, добавляет произвольные строки запроса на нашу домашнюю страницу.

xx.xxx.xx.xxx - - [30/Jun/2009:10:14:37 -0400] "GET /?key=61680 HTTP/1.1" 200 3334 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
xx.xxx.xx.xxx - - [30/Jun/2009:10:16:58 -0400] "GET /?term=byron HTTP/1.1" 200 3184 "-" "DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)"

Есть идеи, для чего они предназначены?

Похоже, робот Googlebot слегка исследует ваш сайт в поисках возможных проблем с дублированием контента. Или проверить, правильно ли ваш сайт обрабатывает несуществующие файлы (путем возврата заголовка ответа 404) и / или фиктивных строк запроса.

Это также может быть проверка, чтобы увидеть если вы можете быть какой-то фермой ссылок если ложные запросы дают разные результаты.

Также возможно, что кто-то связался с вашим сайтом, используя эти параметры строки запроса, и Googlebot просто возвращается к вам, чтобы узнать, о чем идет речь. Если это так, попробуйте выяснить, кто ссылается на вас таким образом, и посмотрите, не сможете ли вы заставить их исправить свои ссылки.

В течение последних нескольких дней робот Googlebot делал то же самое с одним из наших сайтов. Похоже, что он вставляет значение строки запроса, которое соответствует используемому нами ключу, но ожидает целое число, когда робот Googlebot предоставляет строку. (например, параметр должен иметь вид gb = 22, но робот Google ищет gb ​​= lkcvvzxxz)

Что еще хуже, робот Googlebot индексирует эти плохие URL-адреса в Google.

Я хотел бы получить ответ на этот вопрос. Я знаю, что это должен был быть комментарий, но пока нет смысла делать это на severfault ...

Встречаются ли они вместе с другими записями робота Googlebot? В противном случае, возможно, Googlebot проверяет ссылки с другого веб-сайта на ваш, чтобы проверить связь с их алгоритмами. Это означает, что другой веб-сайт имеет ссылки на ваш веб-сайт с этими URL. Я не знаю, могут ли спам-домены или домены ссылок что-то делать с этими URL-адресами.

Поскольку я не всегда понимаю все, что делает робот Googlebot, я, конечно, могу ошибаться.