Назад | Перейти на главную страницу

Предполагаемая вредоносная активность одного из пользователей моего сайта; есть способ узнать наверняка?

В течение примерно 2 часов пользователь, вошедший в систему на моем веб-сайте, получил доступ примерно к 1600 страницам, что подозрительно похоже на действия бота. Я обеспокоен тем, что пользователи должны приобрести доступ к сайту, чтобы получить полный доступ к нашему защищенному контенту; поэтому у меня есть основания полагать, что этот человек очищал наш контент.

Я знаю, что мне нужно было предусмотреть смягчающие факторы, чтобы в первую очередь предотвратить этот вид деятельности. Я сейчас над этим работаю.

Основываясь на журналах доступа и ошибок Apache, у меня есть довольно веские косвенные доказательства того, что пользователь использовал какой-то поисковый робот или бот. Мне интересно, есть ли какой-либо способ получить прямые доказательства, то есть на основе шаблона сканирования, могу ли я на 100% сказать, что это сценарий?

Вот образец журнала доступа:

###.###.###.### - - [06/Apr/2016:19:32:59 -0500] "GET /article/id/slug-slug-slug-slug HTTP/1.1" 200 15002 "-" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:00 -0500] "GET /article/id/slug-slug-slug-slug HTTP/1.1" 200 15002 "-" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:04 -0500] "GET /article/id/wordmark-icon.png HTTP/1.1" 404 5026 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:05 -0500] "GET /article/id/60559332d74832ae81f6ea69f98e24cc.png HTTP/1.1" 404 5191 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:05 -0500] "GET /article/id/9e8d61bdd8acf3735a02ef90192eefa8.png HTTP/1.1" 404 5189 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:05 -0500] "GET /article/id/b75384c9aa61c22fa768cdfbafaf5351.png HTTP/1.1" 404 5190 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:06 -0500] "HEAD /article/id2/slug-slug-slug-slug HTTP/1.1" 200 604 "mywebsite.com/article" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:07 -0500] "HEAD /article/id3/slug-slug-slug-slug HTTP/1.1" 200 604 "mywebsite.com/article" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:08 -0500] "GET /article/id3/slug-slug-slug-slug HTTP/1.1" 200 9983 "-" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"

...и так далее и тому подобное.

Вот некоторые наблюдения, которые я нашел выше:

Примерно за одну миллисекунду было два запроса GET к одному и тому же URL-адресу. Я не верю, что это возможно для человека, но я могу ошибаться.
Я не знаком с запросами HEAD в типичной пользовательской активности. Это обычное дело или свидетельство наличия бота?
После первых двух запросов GET, указанных выше, есть дополнительные запросы на получение изображений, найденных в статье. Однако в действительности эти изображения расположены в CDN с совершенно другой схемой URL. Этот человек / бот / кто-либо другой использует URI (/ article / id /) и добавляет фактическое имя файла изображения, что приводит к ошибке 404. Это происходило в каждом отдельном случае.

Можно ли без тени сомнения сказать, что это бот? Если да, то есть ли какой-либо способ узнать конкретный сценарий или это долгий путь? По крайней мере, есть ли симптомы определенного типа бота, веб-парсера или скрипта?

Спасибо за ваш вклад.

Можно ли без тени сомнения сказать, что это бот?

Нет. Можно открыть несколько вкладок вашего сайта, вывести браузер из строя, повторно открыть окно браузера со всеми вкладками и вызвать этот отпечаток, похожий на DOS-атаку.

Если да, то есть ли какой-либо способ узнать конкретный сценарий или это долгий путь?

Я не вижу никаких данных, которые позволили бы вам сделать отпечаток такого скрипта.

По крайней мере, есть ли симптомы определенного типа бота, веб-парсера или скрипта?

Запросы на битые изображения действительно вызывают подозрение. Так что да, симптомы автоматизированной деятельности, да.

Вместо того, чтобы пытаться точно выяснить, что это, рассмотрите инструмент поведенческого / репутационного мониторинга, например Лист. Это позволяет вам сначала регистрировать активность и определять закономерности, которые вы можете отметить как подозрительные. Затем вы можете решить, что делать с такой подозрительной активностью.

Если вы не можете быть уверены, что это бот, и не хотите злить того, кто может быть настоящим пользователем, вы можете просто отобразить вызов, например reCaptcha, или снова войти в систему. Или вы можете перенаправить этого пользователя на вторичный сервер, чтобы производительность не пострадала от доверенных лиц на главном сервере. Или вы даже можете отправить их в приманку и делать все, что хотите, показывать поддельные данные, показывать кешированные данные и т. Д.