Я переместил веб-службу на новый сервер. Я выяснил, что на старом сервере следующее дает примерно такое же количество обращений, как awstats
(например, для данного дня следующее дает 5537, тогда как awstats
указывает 5557 совпадений):
grep -v bot myaccess.log| # file contains given vhost for given date range \
grep -v rss2email|\
grep -v Slurp|\
grep -v pider| # Ignore spiders \
egrep 'HTTP/.... (200|304) '| # Catch only 200 and 304 responses \
grep -v Wget|\
grep -v Bot|\
grep -v rawler| # Ignore crawlers \
grep -v favicon.ico|\
grep -v robots.txt|\
grep -v HTTrack|\
grep -v simplepie|\
grep -v BingPreview|\
wc -l
Добавление следующего в конец grep
цепочка дает примерно такое же количество страниц (например, 2916 за день), что и awstats
(3042):
egrep -v '(css)|(js)|(class)|(gif)|(jpg)|(jpeg)|(png)|(bmp)|(ico)|(swf) HTTP'
Теперь я перенес сервер. Изменилось многое: apache
стал nginx
; изменился формат журнала; то awstats
конфигурация переписана; Сжатие Debian стало хриплым, и awstats
6.9.5 стало 7.0.
Большой трубопровод выше по-прежнему приблизительно awstats
попадает хорошо (например, 5521 против 5541), но добавляя egrep
что исключает NotPageList
нет: я получаю для данного дня 2948, тогда как awstats
дает 1580. (Содержит ли список исключений rss
и xml
не имеет существенного значения.) Действительно, с того дня, как служба была перемещена, количество обращений осталось примерно таким же, а количество страниц и посещений сократилось примерно вдвое. Я не могу понять почему.
Основное отличие заключается в новой функции в awstats
7.0: загрузки. Предполагается, что определенные расширения файлов (pdf
, zip
, txt
, mp3
, doc
, ppt
, и многое другое) являются «загрузками». Старшая awstats
версии считали это «страницами».
Я также понимаю, что каждая новая версия awstats
имеет более полный отфильтрованный список (например, более полный список ботов), в результате чего каждая новая версия сообщает о меньшем количестве страниц (всегда существует завышенная оценка, которую, вероятно, невозможно полностью исключить); но это должно иметь меньший эффект.