Я недавно попросил 301 перенаправление на ServerFault и я не нашел правильного решения моей проблемы, но теперь у меня есть новая идея: используйте robots.txt, чтобы запретить определенные URL с моего сайта "пролезть".
Моя проблема была проста: после перехода с проприетарной настроенной CMS на WordPress у нас было много URL-адресов, которые Google не нашел на новом сайте, и это перешло на страницу 404. Это плохо для нашего рейтинга страниц и поиска, потому что Google все еще считает, что эти страницы живы.
У нас есть список URL-адресов, которые не работают, и я попытался перенаправить на хорошие. Проблема в, их 20 000, и нет никакого шанса решить проблему с помощью регулярного выражения. Нам приходилось выполнять 301 редирект ПО ОДНОМУ, и это была адская задача.
Но мне было интересно: Не могли бы мы просто перечислить все эти плохие URL-адреса в нашем файле robots.txt с префиксом Disallow:, значит, Google их не индексирует? Это плохая идея?
Если Google считает, что ваша страница 404 действительна, вам необходимо вернуть код ответа 404 на этой странице. Исправьте это, а остальное будет в порядке.
Проще говоря, да, это была бы не лучшая идея. Блокируя Google от просмотра страниц, он не может определить, что на них, и может в некоторых случаях рассматривать их как подозрительные, поскольку вы скрываете ненужные вещи.
Что вам следует сделать, так это перенаправить все соответствующие страницы на новые страницы.
пример
"domain-old.com/a" и "domain-old.com/b" могут быть перенаправлены на "domain-new.com/a-b"
Это потому, что контент / a + / b находится на / a-b - есть релевантность и перенаправление имеет смысл.
Если бы он перенаправлял нерелевантный контент, это считалось бы плохим
"domain-old.com/a", "domain-old.com/b" и "domain-old.com/c" перенаправлены на "domain-new.com/a-b"
В этом случае / c не имеет смысла, поскольку / a-b не имеет отношения к контенту на странице / c.
/ c останется 404
Важно отметить, что если ваши страницы получат 404, вы потеряете этот трафик.