Что ж, я в тупике. Несколько месяцев назад мы запустили совершенно новый веб-сайт, заменив устаревшую систему, которая была довольно беспорядочной. Частично эта неразбериха заключалась в том, что было создано множество страниц, которые действительно не нуждались в том, чтобы их сканировал или сканировал Google. Было много дубликатов и данных оболочки, что привело к сканированию и индексации дополнительных URL-адресов Google. При переходе на другой сайт мы, конечно, сломали некоторые из этих URL-адресов, но это не вызвало особого беспокойства. Я заблокировал те, которые, как я знал, должны быть заблокированы в robots.txt, 301 перенаправил столько повторяющихся данных, сколько смог (это все еще текущий процесс), и просто вернул 404 для любых других, которых никогда не должно было быть там.
Последние 3 месяца я отслеживал 404-е отчеты Google в Webmaster, и хотя у нас было несколько тысяч из-за постепенного удаления оболочки и повторяющихся данных, меня это не сильно беспокоило. Я генерировал обновленные карты сайта для Google несколько раз в неделю с любыми обновленными URL-адресами. Затем, примерно неделю назад, Webmaster начал сообщать о значительном увеличении числа 404-х, где-то около 30 000 новых 404-х в день (что делает невозможным для меня поспевать). Мои обновленные карты сайта даже не содержат 30 000 URL. 404 действительно предназначены для неправильных URL-адресов, а также для URL-адресов, которые не существовали в течение нескольких месяцев и не были так давно в карте сайта. Это похоже на то, что Google решил случайным образом использовать карту сайта, сделанную много месяцев назад, поскольку я не знаю, почему он внезапно просканировал URL-адрес для данных, которые не существовали в течение многих месяцев и определенно нигде не связаны (хотя веб-мастер утверждает, что он связан в карте сайта .... что это не так).
У кого-нибудь есть объяснение этому? Сегодня утром я даже получил автоматическое сообщение от Инструментов для веб-мастеров, в котором сообщалось о значительном увеличении числа 404-х с моего сайта. Я не совсем уверен, насколько я должен беспокоиться об этом ...
Все ли ошибки 404 исходят от Google Bot или это реальные пользователи? Если первое, возможно, вы правы, что они использовали старую карту сайта или повторно сканируют старые URL-адреса, чтобы проверить, действительно ли они недействительны. Кто знает, как работает бот, но в целом он делает все правильно - ваши 404 страницы не будут отображаться в результатах поиска, так что кого это волнует?
Если они настоящие пользователи, вам следует выяснить, откуда они пришли, используя заголовок реферера. Надеюсь, тогда вы сможете найти источник проблемы. Заголовок реферера иногда бывает пустым, но для такой большой выборки я ожидаю, что будет доступно довольно много данных.