Известно, что пауки Яндекс.ру не подчиняются robots.txt. В Apache вы можете отключить яндекс в файле htaccess. Как я могу сделать то же самое с Tomcat? Я использую сервер ubuntu, поэтому подумал о соответствующих записях в hosts.deny, но не уверен, что
ALL: yandex.ru
будет достаточно и эффективно, потому что ботов часто называют spider31.yandex.ru. Не могли бы вы показать пример блокировки этих ботов через hosts.deny (или каким-либо другим способом)?
Вы хотите поместить это в hosts.deny:
ALL: .yandex.ru
Обратите внимание на расширение. что означает любой субдомен.