Мы запускаем серверы разработки apache (на Windows) и NGINX (на CentOS). У меня проблема с тем, что Google каким-то образом удерживает адреса разработчиков и индексирует их (может быть, из адресной строки Chrome?) Есть ли способ заблокировать весь трафик от ботов / пауков на уровне сервера до того, как прибегать к отдельным файлам robots.txt на каждом сайте или доступ только по паролю?
Связанная проблема связана с живой средой (NGINX в CentOS), где мы используем домен статических ресурсов для обслуживания изображений и js и т.д., опять же, Google пошел и проиндексировал это в своих результатах поиска, есть ли способ предотвратить это?
Прежде всего, вы должны предоставить действующий файл robots.txt в корне вашего домена. Это распространенный способ попросить Google и других легальных поисковых роботов не просматривать ваш сайт.
С помощью nginx и т. Д. Довольно легко заблокировать выбранные юзерагенты:
if ($http_user_agent ~ (Googlebot|bingbot|whatever) ) {
return 403;
}
вы можете поместить этот код в отдельный файл и включать его в каждый server
блок.