У меня есть файл robots.txt:
User-Agent: *
Disallow: /files/
User-Agent: ia_archiver
Allow: /
User-agent: Googlebot
Disallow:
User-agent: googlebot-image
Disallow:
User-agent: googlebot-mobile
Disallow:
Я обнаружил, что файлы PDF в каталоге / files / индексируются Google.
Стоит ли переместить первую запись вниз?
При работе с инструментами Google для веб-мастеров. Я переместил / files / disallow в нижнюю часть и проверил один файл PDF в каталоге файлов, и он вернул успех.
Как я могу исправить эту проблему? Мы не хотим, чтобы что-либо в этом каталоге индексировалось.
ИЗМЕНЕНО
Даже если я удалю все, кроме первого предложения,
User-Agent: *
Disallow: /files/
Google по-прежнему может видеть PDF-файлы в каталоге / files /, что я здесь делаю не так?
В инструментах Bing для веб-мастеров он отображается как заблокированный, но Google по-прежнему показывает успех.
Edit: перечитайте стандарт. робот будет использовать первый токен совпадающего имени или откатится к *
. Для каждого бота, которому вы хотите запретить доступ /files/
, вам нужно будет добавить соответствующий disallow:
User-agent: *
Disallow: /files/
User-agent: Googlebot
Disallow: /files/
http://www.robotstxt.org/ - отличный ресурс, если вы его еще не видели.