Назад | Перейти на главную страницу

Быстрый вопрос Robots.txt

Будет ли следующий синтаксис robots.txt правильно блокировать все страницы сайта, заканчивающиеся на "_.php"? Я не хочу случайно блокировать другие страницы.

User-Agent: *    
Disallow: /*_.php

Кроме того, могу ли я иметь команды «Разрешить: /» и «Запрещать:» в одном файле robots.txt? Спасибо!

Если вы хотите исключить определенные файлы (но не другие), вы должны сгруппировать их по каталогам, например:

User-agent: *
Disallow: /cgi-bin/

За robotstxt.org, звездочки в поле "Запретить" не поддерживаются:

Также обратите внимание, что подстановка и регулярное выражение не поддерживаются ни в строках User-agent, ни в Disallow. «*» В поле User-agent - это специальное значение, означающее «любой робот». В частности, у вас не может быть таких строк, как «User-agent: бот"," Disallow: / tmp / * "или" Disallow: * .gif ".

Кроме того, не существует поля «Разрешить». Все разрешено по умолчанию, а определенные элементы запрещены в порядке исключения.

Ссылки:

Ответ Майлза охватывает стандарты. Самый известный сканер, Googlebot, расширяет стандарты и понимает как разрешить, так и (ограниченное) сопоставление с образцом.

Я считаю инструменты Google для веб-мастеров весьма полезными. У них есть целый инструмент, посвященный помогая вам создать правильный robots.txt. Однако вам необходимо загрузить страницы (или, по крайней мере, тестовые страницы-заглушки), прежде чем вы сможете запустить "robots.txt test".