Что произойдет, если на веб-сайте нет файла robots.txt?

Если robots.txt файл отсутствует в корневом каталоге веб-сайта, как это делается:

сайт вообще не индексируется
сайт индексируется без ограничений

По моему мнению, он должен быть вторым. Прошу в отношении этот вопрос.

Robots.txt - это строго добровольное соглашение поисковых систем; они могут игнорировать это или реализовывать как угодно. Тем не менее, если не считать случайных пауков, ищущих адреса электронной почты или тому подобное, они почти все уважают это. Его формат и логика очень и очень просты, а по умолчанию разрешено правило (поскольку вы можете только диспозволять). Сайт без файла robots.txt будет полностью проиндексирован.

Цель robots.txt файл для сканеров вне определенных частей вашего сайта. Отсутствие такового должно привести к индексации всего вашего контента.

Из первого комментария к этому мета-вопросу следует, что robots.txt файл существовал, но был недоступен (по какой-либо причине), а не отсутствовал вообще. Который мощь вызвать у поисковых роботов некоторые проблемы, но это предположение.

У меня нет robots.txt в моем блоге (самостоятельная установка Wordpress), и это проиндексировано.

robots.txt не является обязательным. Если он у вас есть, сканеры, соответствующие стандартам, будут его уважать, если у вас его нет, все, что не запрещено в элементах HTML-META (Википедия) можно сканировать.

У меня не было robots.txt на десятках зарегистрированных мной доменов, некоторые еще в 1994 году, и у меня никогда не было проблем с их размещением в google / yahoo и т. Д.

Даже мой личный веб-сайт получает от Google 150-200 пользователей в день и не имеет файла robots.txt.

(Мне нравится трехминутная пауза между ответами на вопросы. Затем я получу код робота. Иногда просто не стоит пытаться быть полезным.)

Сайт будет проиндексирован без ограничений. пауки будут следовать за всем, что найдут. я не думаю, что ты этого хочешь. некоторые пауки, такие как байду, могут быть очень агрессивными по этому поводу. он может даже оценивать URL-адреса в кодах javascript.

вот подробная информация. http://www.robotstxt.org/orig.html

пс. также у вас будет много 404 логов на вашем веб-сервере. это тоже недостаток при чтении логов. & не забудьте положить файл favicon.ico. это еще один дурацкий файл, который требуют все браузеры на каждой странице.

(Я не смог найти способ добавить комментарий, но) Кроме того, я хотел бы добавить, что отсутствие файла robots.txt также является проблемой в том смысле, что вы не сможете предоставить для него файл Sitemap. Помните, что файлы Sitemap можно найти только путем их указания в файле Robots.txt или путем прямой отправки в поисковые системы, но, конечно, последнее означает, что вы должны делать это один за другим, а не просто быстро находить все Это.