Назад | Перейти на главную страницу

Каких ботов и пауков я должен блокировать в robots.txt?

Чтобы:

  1. Повысьте безопасность моего сайта
  2. Уменьшите требования к пропускной способности
  3. Предотвратить сбор адресов электронной почты

Ни один бот, собирающий электронные письма или проверяющий ваш сайт на уязвимости, не будет уважать ваш robots.txt. На самом деле эти вредоносные боты просматривают файл robots.txt, чтобы лучше отобразить ваш сайт. Если в какой-то момент у вас есть Disallow: это будет использоваться для более эффективной атаки на ваш сайт. Хакеру, который вручную просматривает ваш сайт, следует потратить дополнительное время на изучение любых файлов / каталогов, которые вы пытаетесь запретить.

robots.txt не повысит безопасность вашего веб-сайта и не предотвратит сбор адресов электронной почты. robots.txt - это руководство для поисковых систем, позволяющее пропускать разделы вашего сайта. Они не будут индексироваться, и их следует использовать для любых разделов, которые вы не хотите отображать в общедоступных поисковых системах.

Однако это никоим образом не помешает другим ботам загрузить весь ваш сайт для повышения безопасности или предотвращения сбора электронной почты. Для повышения безопасности вам необходимо добавить аутентификацию и разрешить только аутентифицированным пользователям за пределами защищенных разделов. Чтобы предотвратить сбор адресов электронной почты, не помещайте электронные письма в виде обычного текста (или легко читаемого текста) на веб-сайт.

robots.txt не поможет вам с безопасностью. Любой бот, который хочет сделать что-то сомнительное, все равно проигнорирует это.

Файл robots.txt служит только для того, чтобы роботы и пауки оставили в покое определенные фрагменты контента; на самом деле это не может предотвратить их доступ. «Хорошие» боты будут уважать это, но «плохие» (возможно, те, которых вы хотите заблокировать) проигнорируют это и все равно продолжат работу.

Вместо robots.txt, возможно, вам нужно использовать коды CAPTCHA.