Я использую awk для анализа некоторых файлов журналов доступа. В настоящее время я использую следующее:
awk '($9 ~ /404/)' access_log | awk '{print $9,$7}' | sort | uniq -c | sort > 404.txt
Что возвращает все 404-е в моем журнале доступа с указанием количества появлений. Однако он возвращает абсолютно все, а меня интересуют только html-страницы.
Как я могу изменить это, чтобы возвращать значения только для запросов, заканчивающихся на .html?
Вы можете добавить еще одно регулярное выражение:
awk '$7 ~ /\.html/ && $9 ~ /404/ {print $9,$7}' access_log | sort | uniq -c | sort > 404.txt