Назад | Перейти на главную страницу

Блокировать ботов / пауков с сервера разработки и домена статических ресурсов

Мы запускаем серверы разработки apache (на Windows) и NGINX (на CentOS). У меня проблема с тем, что Google каким-то образом удерживает адреса разработчиков и индексирует их (может быть, из адресной строки Chrome?) Есть ли способ заблокировать весь трафик от ботов / пауков на уровне сервера до того, как прибегать к отдельным файлам robots.txt на каждом сайте или доступ только по паролю?

Связанная проблема связана с живой средой (NGINX в CentOS), где мы используем домен статических ресурсов для обслуживания изображений и js и т.д., опять же, Google пошел и проиндексировал это в своих результатах поиска, есть ли способ предотвратить это?

Прежде всего, вы должны предоставить действующий файл robots.txt в корне вашего домена. Это распространенный способ попросить Google и других легальных поисковых роботов не просматривать ваш сайт.

С помощью nginx и т. Д. Довольно легко заблокировать выбранные юзерагенты:

if ($http_user_agent ~ (Googlebot|bingbot|whatever) ) {
    return 403;
}

вы можете поместить этот код в отдельный файл и включать его в каждый server блок.