Назад | Перейти на главную страницу

Проблемы с googlebot

Робот Googlebot постоянно пытается проиндексировать URL-адреса, которых нет на нашем сервере, поэтому он все время выдает ошибку 404. У нас нет никаких ссылок на этот веб-сайт (я думаю, что это блог из Нигерии), поэтому я не знаю, почему Google пытается получить доступ к этим страницам.

Странно то, что я не могу найти этот сайт в Интернете, он как будто нигде не существует.

Это пример записи в моем журнале:

66.249.72.201 - - [17/Sep/2011:10:08:10 +0200] "GET /main.php/v/Agadez+2006/Tagama/IMG_1214.JPG.html?g2_imageViewsIndex=3&g2_fromNavId=x50ca95f2 HTTP/1.1" 404 245 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Есть идеи о том, что происходит?

Известно, что GoogleBot пробует URL-адреса, существовавшие когда-то в прошлом. Например, недавно я полностью переработал свой веб-сайт. Старые URL-адреса, которые были проиндексированы в прошлом, все еще получают (404) от Googlebot несколько месяцев спустя. Я точно знаю, что мой веб-сайт никоим образом не использует эти URL внутри компании. Некоторые ссылки связаны с внешними сайтами; некоторые даже не связаны внешне.

Вы можете использовать Инструменты Google для веб-мастеров, если вы еще этого не сделали. Вы можете использовать эти инструменты, чтобы увидеть, что было проиндексировано и что дало 404. Вы также можете увидеть, на какие страницы есть ссылки из каких внешних источников.

Претензия Google на известность заключается в том, чтобы сканировать Интернет и распознавать релевантный контент, который представляет ценность для пользователей. При этом Google в значительной степени полагается на входящие ссылки с других веб-сайтов как на своего рода «вотум доверия» вашему сайту. Если есть ссылки на другие веб-сайты, плавающие в сети, Google будет переходить по ссылкам в поисках контента для индексации.

Я подозреваю, что предыдущий владелец вашего доменного имени (до вашей регистрации) имел входящие ссылки в другом месте на контент, созданный в течение некоторого времени. Теперь, когда вы взяли под свой контроль доменное имя, а контент больше не существует, Google получает ошибку 404.

В идеальном мире Google запомнил бы получение ошибки 404 и никогда больше не сканировал бы эту ссылку. К сожалению, GoogleBot сложен и постоянно меняется, поэтому трудно предположить, что может произойти.

У меня был аналогичный опыт с недавно зарегистрированным доменным именем - вы можете спокойно игнорировать это поведение. Это не окажет устойчивого влияния на ваш рейтинг.

Что случается? Google обращается к вашему сайту. Не о чем беспокоиться.

Если вас что-то беспокоит, прочтите данный URL: http://www.google.com/bot.html

Если вы не хотите, чтобы Google получал доступ к вашему сайту, вы можете заблокировать диапазон IP-адресов. В таком случае нет страница будет проиндексирована.

По одному URL-адресу невозможно определить, практично это или нет, но первое, на что я обращаю внимание, - это добавление некоторой части URL-адреса в файл robots.txt.