Сайт сканирует анонимный бот, размещенный на Amazon ec2. Этот робот не уважает robots.txt и создает высокую нагрузку на веб-сервер, поэтому я добавил проверку, заканчивается ли обратный IP-адрес для запроса на amazonaws.com, после чего сервер немедленно возвращает страницу 403.
Это решенная проблема, но может быть это может вызвать другие проблемы? ec2 может использоваться для некоторых "хороших" ботов, и это вызовет проблемы с доступом для их. Вы можете привести пример таких проблем?
Amazon EC2 - это хостинговая платформа. Они не контролируют напрямую, что люди размещают. Если вы заблокируете весь домен * .amazonaws.com, вы прекратите доступ к любой размещенной службе, использующей EC2. В наши дни это довольно много.
Проверьте этот аналогичный вопрос: он показывает, как блокировать пользовательским агентом прямо в файле .htaccess. Это хорошо для роботов, которые не соблюдают ваше правило robots.txt ...
Блокировка строкой пользовательского агента в httpd.conf не действует
И вы должны поместить это либо в файл httpd.conf, либо в .htaccess.
Удачи.