Мы замечаем, что значительный объем веб-трафика исходит от парсеров контента (определяется в соответствии с их схемой сканирования). Они бесполезны для нас, но потребляют много наших ресурсов (пропускная способность, ЦП). Есть ли какое-нибудь приложение / брандмауэр для обнаружения и блокировки парсеров контента?
За исключением поисковых роботов, они не бесполезны.
Примечание: я предпочитаю использовать существующие решения. Он считает, что это обычная проблема, и должно быть существующее решение.
Лучший способ сделать это - заблокировать трафик с помощью netfilter / iptables, поскольку это существенно эффективнее, чем блокировка через apache2 / php. Проблема здесь в том, что вам необходимо знать ip / имя хоста парсеров контента.
Возможным расширением может быть попытка обнаружения парсеров контента на основе их поведения (-> статистические методы! - например, запросов в минуту) или, например, поиск недостающего агента пользователя или других вещей, которые может иметь обычный пользовательский браузер, а затем отказать им в доступе. Конечно, вы также можете добавить IP / имя хоста через php (или любую другую среду, которую вы используете) в iptables, чтобы он заблокировался. Но обычно для этого требуется разрешение root, и НЕ рекомендуется давать разрешение root вашему apache2.