Если robots.txt
файл отсутствует в корневом каталоге веб-сайта, как это делается:
По моему мнению, он должен быть вторым. Прошу в отношении этот вопрос.
Robots.txt - это строго добровольное соглашение поисковых систем; они могут игнорировать это или реализовывать как угодно. Тем не менее, если не считать случайных пауков, ищущих адреса электронной почты или тому подобное, они почти все уважают это. Его формат и логика очень и очень просты, а по умолчанию разрешено правило (поскольку вы можете только диспозволять). Сайт без файла robots.txt будет полностью проиндексирован.
Цель robots.txt
файл для сканеров вне определенных частей вашего сайта. Отсутствие такового должно привести к индексации всего вашего контента.
Из первого комментария к этому мета-вопросу следует, что robots.txt
файл существовал, но был недоступен (по какой-либо причине), а не отсутствовал вообще. Который мощь вызвать у поисковых роботов некоторые проблемы, но это предположение.
У меня нет robots.txt
в моем блоге (самостоятельная установка Wordpress), и это проиндексировано.
robots.txt не является обязательным. Если он у вас есть, сканеры, соответствующие стандартам, будут его уважать, если у вас его нет, все, что не запрещено в элементах HTML-META (Википедия) можно сканировать.
У меня не было robots.txt на десятках зарегистрированных мной доменов, некоторые еще в 1994 году, и у меня никогда не было проблем с их размещением в google / yahoo и т. Д.
Даже мой личный веб-сайт получает от Google 150-200 пользователей в день и не имеет файла robots.txt.
(Мне нравится трехминутная пауза между ответами на вопросы. Затем я получу код робота. Иногда просто не стоит пытаться быть полезным.)
Сайт будет проиндексирован без ограничений. пауки будут следовать за всем, что найдут. я не думаю, что ты этого хочешь. некоторые пауки, такие как байду, могут быть очень агрессивными по этому поводу. он может даже оценивать URL-адреса в кодах javascript.
вот подробная информация. http://www.robotstxt.org/orig.html
пс. также у вас будет много 404 логов на вашем веб-сервере. это тоже недостаток при чтении логов. & не забудьте положить файл favicon.ico. это еще один дурацкий файл, который требуют все браузеры на каждой странице.
(Я не смог найти способ добавить комментарий, но) Кроме того, я хотел бы добавить, что отсутствие файла robots.txt также является проблемой в том смысле, что вы не сможете предоставить для него файл Sitemap. Помните, что файлы Sitemap можно найти только путем их указания в файле Robots.txt или путем прямой отправки в поисковые системы, но, конечно, последнее означает, что вы должны делать это один за другим, а не просто быстро находить все Это.