Около десяти дней назад я переместил сайт - в основном доску обсуждений Joomla - на новый сервер с другим IP-адресом. Во время короткого запланированного простоя я реплицировал контент и завершил переключение DNS (через Cloudflare), как обычно, и большая часть трафика последовала за ним - все реальные пользователи могут получить доступ к сайту в новом месте, и это похоже на большинство веб-сканеров Запросы.
Однако у меня все еще есть поисковые роботы, пытающиеся получить доступ к моему сайту по старому IP. И я имею в виду, в частности, по IP-адресу - хотя они пытаются сканировать действительные пути, которые теперь существуют на новом сервере. В первую очередь это GoogleBot, хотя я также вижу спорадические записи BingBot или Yahoo Slurp. Журналы Apache показывают 1-2 доступа в минуту на старом сервере.
Однако все три этих бота выполняют большую часть своего сканирования на новом сервере.
Я удалил контент со старого сервера, поэтому на эти запросы отвечает 404. Есть ли соглашение, по которому сканеры каким-то образом индексируют IP-адрес сервера?
Есть ли способ подтолкнуть их к просмотру нового сайта? Следует ли мне активно перенаправлять их с помощью пользовательских кодов ошибок HTTP?
Обновление кеша DNS на этих сканерах может занять невероятное количество времени, но мне кажется, что 10 дней растянуты. OTOH вы говорите, что они попадают на ваш сайт по IP, что, безусловно, ошибочно. TBH это больше похоже на плохую ссылку и тот факт, что ваш веб-сервер не перенаправляет IP-адреса на фактические URL-адреса FQDN, а затем сканер продолжает просматривать собственные относительные ссылки сайта (но это всего лишь предположение).
Я бы не стал беспокоиться о перенаправлениях, если только вы не собираетесь запускать этот старый сервер в течение длительного времени для этого. Например, мы ввели SSL год назад (с перенаправлением 301), но все еще получаем много запросов по обычному HTTP. И они являются прямыми ссылками на определенные ресурсы (например, загрузки), поэтому дело не в том, что они вводят основной адрес без указания https: //. Пока вы продолжаете подавать его, они будут продолжать его использовать.
Если бы эти же боты сканировали и ваш новый сервер, я бы не возражал. Мои 2 цента.