Назад | Перейти на главную страницу

Используйте файл robots.txt, чтобы предотвратить получение сканерами старых версий страниц Trac

глядя на мой журнал доступа Apache, я вижу, что сканеры, как правило, получают старые версии страниц и документов, например:

119.63.196.86 - - [10/Jun/2011:10:36:31 +0200] "GET /wiki/News?version=14 HTTP/1.1" 200 6073 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

Я бы хотел, чтобы они не добавляли ?version=x суффикс URL-адресов, чтобы они получали только самое последнее содержимое.

Есть ли способ сделать это через robots.txt файл (или другие механизмы, которые я не знаю?

Если вы используете trac из коробки, то на этих страницах есть как NOINDEX, так и NOFOLLOW, так как они будут сканироваться, они не будут индексироваться.