Будет ли следующий синтаксис robots.txt правильно блокировать все страницы сайта, заканчивающиеся на "_.php"? Я не хочу случайно блокировать другие страницы.
User-Agent: *
Disallow: /*_.php
Кроме того, могу ли я иметь команды «Разрешить: /» и «Запрещать:» в одном файле robots.txt? Спасибо!
Если вы хотите исключить определенные файлы (но не другие), вы должны сгруппировать их по каталогам, например:
User-agent: * Disallow: /cgi-bin/
За robotstxt.org, звездочки в поле "Запретить" не поддерживаются:
Также обратите внимание, что подстановка и регулярное выражение не поддерживаются ни в строках User-agent, ни в Disallow. «*» В поле User-agent - это специальное значение, означающее «любой робот». В частности, у вас не может быть таких строк, как «User-agent: бот"," Disallow: / tmp / * "или" Disallow: * .gif ".
Кроме того, не существует поля «Разрешить». Все разрешено по умолчанию, а определенные элементы запрещены в порядке исключения.
Ссылки:
Ответ Майлза охватывает стандарты. Самый известный сканер, Googlebot, расширяет стандарты и понимает как разрешить, так и (ограниченное) сопоставление с образцом.
Я считаю инструменты Google для веб-мастеров весьма полезными. У них есть целый инструмент, посвященный помогая вам создать правильный robots.txt. Однако вам необходимо загрузить страницы (или, по крайней мере, тестовые страницы-заглушки), прежде чем вы сможете запустить "robots.txt test".