Методы фильтрации пауков / ботов во время анализа файлов журналов

Я начну с того, что расскажу, чем мы занимаемся.

Меры, которые мы внедрили, ловят множество пауков, но мы не знаем, сколько из них нам не хватает. В настоящее время мы применяем набор мер, которые явно частично перекрываются:

отслеживать запросы к нашему файлу robots.txt: тогда, конечно, фильтруйте все остальные запросы с того же IP-адреса + пользовательского агента
сравнить пользовательский агент и IP-адреса с опубликованными списками: iab.net и user-agents.org публикуют два списка, которые, по-видимому, наиболее широко используются для этой цели.
анализ паттернов: у нас, конечно, нет предустановленных пороговых значений для этих показателей, но мы все же считаем их полезными. Мы рассматриваем (i) просмотры страниц как функцию времени (т. Е. Нажатие на множество ссылок по 200 мсек на каждой странице является доказательным); (ii) путь, по которому «пользователь» выходит из Сайта, является ли он систематическим и полным или почти таковым (например, следуя алгоритму обратного отслеживания); и (iii) своевременные посещения (например, в 3 часа ночи каждый день).

Опять же, я почти уверен, что мы получаем низкие плоды, но мне интересно узнать мнение сообщества.

Эти сообщения в информационном бюллетене помечены как Анализ веб-журнала в
коммерческий Анализатор веб-журналов от Nihuo страницы сайта могут быть полезны для чтения.