Я установил новый экземпляр Amazon EC2. Через день или два начали приходить странные запросы «GET» от IP-адресов «вроде ботов Google» (например, 66.249.76.84, 66.249.74.152) примерно один раз в 10 секунд (некоторые примеры):
66.249.74.152 - - [10/Apr/2013:06:05:02 +0000] "GET /play/gp4GbjXBD4B3?sh=04f2fd19ae2dd623e7135d29a1894f03&sh=f172a32c89190e28f9c27123d7c6cf43&sh=04f2fd19ae2dd623e7135d29a1894f03 HTTP/1.1" 404 295 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.76.84 - - [11/Apr/2013:03:51:44 +0000] "GET /api/levels/2ry7ZAh0Y91r HTTP/1.1" 404 295 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Они проверяют хэши в таких папках, как
/play/'some_hash_here'
/profile/'some_hash_here'
/level/'some_hash_here'
/api/'some_hash_here'
У меня на этом сайте никогда не было таких папок. Но чтобы что-то с этим сделать, я попытался заблокировать их в robots.txt
User-agent: *
Disallow:
Crawl-delay: 120
Disallow: /play
Disallow: /profile
Disallow: /level
Но это совсем не помогло, просто не читает robots.txt. Чтобы избавиться от всего беспорядка, который они предоставили в моем файле error_log, я создал такие правила в файле .htaccess, как это
Redirect 301 /play 'some_other_site'
Redirect 301 /level 'some_other_site'
Redirect 301 /profile 'some_other_site'
Redirect 301 /api 'some_other_site'
Более того, я обнаружил некоторые следы реального бота Google, который сканировал мой сайт, и его поведение было очень нормальным: он запрашивал только страницы, на которых были ссылки на страницах моего сайта. Как я могу избавиться от такого сканирования мошенничества?
Хорошо. Я не знаю, что это было, и не знаю, чего он хотел, но думаю, что нашел решение на основе fail2ban пакет.
Эти IP-адреса являются IP-адресами Google, поэтому есть вероятность, что они являются законными хитами GoogleBot.
Я бы не стал о них беспокоиться. Маловероятно, что это будут попытки взлома. Скорее всего, наиболее вероятная ситуация состоит в том, что IP-адрес вашего сервера ранее был IP-адресом другого веб-сайта, на котором были эти URL-адреса. Это довольно часто встречается в Amazon EC2 из-за плавающего характера их IP-адресов.