Я заблокировал страницу в robots.txt в разделе User-agent: * и попытался вручную удалить этот URL-адрес из кеша Google с помощью инструментов для веб-мастеров. Google сказал, что он не заблокирован в моем файле robots.txt, поэтому я заблокировал его специально в User-agent: GoogleBot и попытался удалить его снова, и на этот раз он сработал. Означает ли это, что Google не уважает User-agent: * или что?
GoogleBot должен правильно соблюдать правила для User-agent: *
, однако он не обновит свой кеш, пока робот GoogleBot снова не просканирует ваш сайт, что займет некоторое время. Google не сообщает точное минимальное время между сканированиями, но я предполагаю, что это от 15 до 30 минут.
Входящие ссылки также будут индексировать URL-адрес Google. У него не будет индекса фактического содержания
Если бы инструменты для веб-мастеров сказали, что файл robots.txt не блокируется, я бы сказал, что у вас должна быть ошибка в файле robots.txt. Google определенно уважает User-Agent, так что что-то еще должно быть не так. Вы можете подробно изучить robots.txt на страницах справки в Инструментах Google для веб-мастеров.
По моему опыту, удаление индекса занимает 24-48 часов, хотя я видел, что это происходило всего за 5 часов.