Назад | Перейти на главную страницу

Робот Google запускает совершенно нормальный файл robots.txt, а затем несуществующий файл robots.txt

У меня есть два доменных имени, указывающих на один и тот же виртуальный сервер. Один из них, http://ilarikaila.com, это рабочая брошюра, которую я сделал для друга. Я использовал другой, http://teemuleisti.com, чтобы протестировать сайт перед тем, как сделать его общедоступным - в ретроспективе, вероятно, плохая идея.

Долгое время Google-бота двояко путали насчет поиска "ilari kaila", но пока я писал это, вторая проблема, похоже, исчезла (добавлено при редактировании: нет, не было).

Путаница первая

Результаты поиска Google по запросу «ilari kaila» включают ilarikaila.com, но только на третьей странице результатов, и вместо фрагмента с сайта результат включает текст «Описание этого результата недоступно из-за robots.txt этого сайта - подробнее. ".

Содержание robots.txt файл были просто

User-agent: *
Allow: /

что, конечно, не должно мешать ботам отображать содержимое сайта. Действительно, когда поисковые термины «ilari kaila» были введены в bing.com, сайт появился как первый результат поиска (как и stlil), и правильный фрагмент был показан и отображается.

Пару дней назад удалил robots.txt совсем (а точнее переименовал его not_robots.txt), но Google по-прежнему показывает тот же результат, ссылаясь на robots.txt. (Вероятно, это причина того, что сайт появляется только на третьей странице результатов поиска.)

Замешательство второе

Изначально запросы к teemuleisti.com показывали те же страницы, что и ilarikaila.com, потому что я не писал отдельной server блок для бывшего в моем nginx.conf файл. Я сделал это пару недель назад и написал одну очень простую HTML-страницу для бывшего сайта.

Тем не менее, результаты поиска Google по запросу «ilari kaila» показали ссылки на сайт teemuleisti.com даже примерно через две недели после того, как я сделал предыдущее, и почти час назад. Однако эта проблема вроде бы решена (добавлено при редактировании: нет, не было), пока я писал этот вопрос, возможно, потому, что я только что добавил следующее перенаправление на сервер nginx.conf файл:

server {
    listen              80;
    server_name         teemuleisti.com www.teemuleisti.com;
    ...
    location = /index.html {
        break;
    }
    location ~* ^/(.+)$ {
        rewrite ^ http://teemuleisti.com redirect;
    }
}

для перенаправления результатов поиска, таких как http://teemuleisti.com/press (который показал фрагмент контента, который находится на http://ilarikaila.com/press) на единственную страницу teemuleisti.com, которая теперь информирует посетителей о проблеме с индексацией Google и имеет ссылку на нужный сайт.

Похоже, это помогло Google-боту решить эту проблему - хотя я не вижу, какая разница, так как на teemuleisti.com не было подстраниц в течение нескольких недель - но что за путаница с robots.txt?

Добавлено при редактировании: Если я погуглил по запросу "ilari kaila composer", вторая страница результатов поиска по-прежнему указала бы на teemuleisti.com, так что эта проблема еще не решена.

Нет таких вещей, как Allow в robots.txt, поэтому ваш robots.txt является недействительным. Это сбивает ботов с толку, поскольку он только ожидает Agent и Disallow описания. Вам следует удалить robots.txt или оставить его пустым, если вы хотите, чтобы весь контекст был проиндексирован.

Больше информации: http://www.robotstxt.org/robotstxt.html