Назад | Перейти на главную страницу

Как с помощью robots.txt запретить сканирование только моих субдоменов?

Если я хочу, чтобы мой основной веб-сайт отображался в поисковых системах, но ни один из поддоменов не был, должен ли я просто поместить файл robots.txt «запретить все» в каталоги поддоменов? Если я это сделаю, будет ли мой основной домен сканироваться?

robots.txt web-crawler

Файл robots.txt должен находиться в каталоге верхнего уровня вашего веб-сервера. Если ваш основной домен и каждый поддомен находятся на разных хостах, вы можете поместить его в каталог верхнего уровня каждого поддомена и включить что-то вроде

User-agent: *
Disallow: /

Расположение robots.txt зависит от того, как вы заходите на конкретный сайт. Учитывая URL-адрес, например

 http://example.com/somewhere/index.html

сканер отбросит все, что находится справа от имени домена, и добавит robots.txt

http://example.com/robots.txt

Поэтому вам нужно поместить свой robots.txt в каталог, на который указывает директива DocumentRoot для example.com, и запретить доступ к / где-нибудь, что вам нужно.

User-agent: *
Disallow: /somewhere

Если у вас есть поддомены и вы обращаетесь к ним как

http://subdomain.example.com

и вы хотите запретить доступ ко всему субдомену, тогда вам нужно поместить свой robots.txt в каталог, на который указывает директива DocumentRoot для субдомена и т. д.

Вы должны поместить его в свой корневой каталог, иначе он не будет найден.

Вам нужно поместить robots.txt в корневой каталог.
Правила запрета не зависит от домена / поддомена и будет применяться ко всем URL-адресам

Например: Предположим, вы используете sub.mydomain.com и mydomain.com (оба связаны с одной и той же папкой ftp). Для этой настройки, если вы установите Disallow: / admin / rule, тогда все URL-адреса sub.mydomain.com/admin/ и mydomain.com/admin/ будут запрещены.

Но если sub.mydomain.com на самом деле не ссылается на другой сайт (а также на другую папку ftp), вам нужно будет создать еще один файл robots.txt и поместить его в корень этой папки.