глядя на мой журнал доступа Apache, я вижу, что сканеры, как правило, получают старые версии страниц и документов, например:
119.63.196.86 - - [10/Jun/2011:10:36:31 +0200] "GET /wiki/News?version=14 HTTP/1.1" 200 6073 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
Я бы хотел, чтобы они не добавляли ?version=x
суффикс URL-адресов, чтобы они получали только самое последнее содержимое.
Есть ли способ сделать это через robots.txt
файл (или другие механизмы, которые я не знаю?
Если вы используете trac из коробки, то на этих страницах есть как NOINDEX, так и NOFOLLOW, так как они будут сканироваться, они не будут индексироваться.