Назад | Перейти на главную страницу

Google-бот влюбился в мою 404-страницу

Каждый день мой журнал доступа выглядит примерно так:

66.249.78.140 - - [21/Oct/2013:14:37:00 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.140 - - [21/Oct/2013:14:37:01 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.140 - - [21/Oct/2013:14:37:01 +0200] "GET /vuqffxiyupdh.html HTTP/1.1" 404 1189 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

или это

66.249.78.140 - - [20/Oct/2013:09:25:29 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.75.62 - - [20/Oct/2013:09:25:30 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.140 - - [20/Oct/2013:09:25:30 +0200] "GET /zjtrtxnsh.html HTTP/1.1" 404 1186 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Бот вызывает robots.txt дважды и после этого пытается получить доступ к файлу (zjtrtxnsh.html, vuqffxiyupdh.html, ...), который не может существовать и должен возвращать ошибку 404. Та же самая процедура каждый день, только изменяется несуществующее html-имя файла.

Содержание моего robots.txt:

User-agent: *
Disallow: /backend
Sitemap: http://mysitesname.de/sitemap.xml

Sitemap.xml доступен для чтения и действителен, поэтому, похоже, нет причин, по которым бот должен вызывать ошибку 404.
Как мне интерпретировать такое поведение? Указывает ли он на ошибку, которую я сделал, или мне следует ее игнорировать?


ОБНОВИТЬ
@malware Я просканировал свой сайт несколькими онлайн-инструментами, ничего не нашел.
У меня нет на сервере стандартных приложений, таких как wordpress или phpmyadmin.
Я получаю logwatch каждый день, и не было никакого несанкционированного доступа по ssh или чего-то подобного.
Я настроил fail2ban.
Я ограничил ssh-доступ к публичным ключам, root-login не разрешен.
Не было ни одной из sudo-команд, о которых сообщал logwatch, которые я не мог распознать как вещи, которые я сделал в тот день.
В моем веб-каталоге нет файла, который был бы новым или созданным не мной, или выглядел бы немного утомленным (хорошо, я не могу гарантировать это на 100%, но все выглядит нормально).
Я сделал полное сканирование сервера безрезультатно.
Программные пакеты обновлены.

Что еще я могу сделать?

Короче: если мои серверы памяти меня поправят. Его нужно проверить 404 страницы на вашем сайте.

Более длинный ответ: люди создают собственные страницы 404, а затем забывают изменить код состояния страницы. В конце вы вернете пользовательские страницы 404 со статусом заголовка как 200 ok, когда бот Google пытается получить доступ к недопустимому URL-адресу. Теперь бот должен принять решение. Чтобы помочь ему в принятии этого решения, он пытается поразить ваш сервер случайно сгенерированным URL-адресом, который имеет высокую вероятность не находиться на вашем сайте, и проверить, каков ответ для сайта, когда запрашивается ненайденная страница.

Как я уже сказал, я не уверен в этом на 100%.