Я немного не уверен в точном синтаксисе robots.txt, но вот чего я пытаюсь достичь:
(в принципе, некоторые страницы с огромным объемом данных никогда не должны сканироваться; а некоторые ненасытные, но бесполезные поисковые системы, например, Cuil, никогда ничего не должны сканировать)
Если я сделаю что-то вроде этого:
User-agent: *
Disallow: /path/page1.aspx
Disallow: /path/page2.aspx
Disallow: /path/page3.aspx
User-agent: twiceler
Disallow: /
..проектирует ли он, как ожидалось, со всеми пользовательскими агентами, соответствующими первому правилу и пропуская page1, page2 и page3; и вдвое больше соответствия второму правилу и пропуска всего?
Похоже, вы понимаете лучше, чем думаете. :)
Хм, зависит от гусеничного робота и от того, работает ли он только при первом матче. IE twoler может сначала увидеть запись подстановочного знака и больше не проверять, поэтому не увидит Disallow: /