Это быстро меняющееся событие, на которое пока нет ответа.
Пожалуйста, не публикуйте свои выводы или предположения в качестве ответов; зарезервируйте поле ответа, когда у вас действительно есть ответ.
Если у тебя есть что-то новый чтобы добавить, отредактируйте его прямо в вопросе.
С начала года у меня много трафика с пользовательским агентом:
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).
Мои журналы доступа показывают 40% - 60% от этого пользовательского агента. Это странно, потому что пользовательский агент указывает браузер Firefox 3.0.10 (кто-нибудь использует этот браузер в 2012 году? Определенно не 40% -60% посетителей обычного веб-сайта).
Кроме того, журналы показывают, что этот пользовательский агент запрашивал только документ HTML и не ссылался на ресурсы, такие как изображения, файлы css, js.
Я проверил IP-адреса этих запросов (с этим UA). Он идет со всего мира. Я понял, что на этих IP-адресах иногда есть мобильный пользовательский агент.
Поэтому я подозреваю, что мобильное приложение выполняет множество «запросов паука». Было бы хорошо знать основную причину трафика от этого пользовательского агента.
За последние пару недель мы обнаружили, что трафик из этого UA упал, а другой трафик увеличился. Похоже, что этот бот / краулер теперь использует более распространенный UA, и поэтому его сложнее заблокировать. Я видел, как кто-то другой сказал это в ответе на этот вопрос, но он был удален, когда serverfault решил изменить этот вопрос.
СТАРЫЕ ответы в качестве справки
Обновить от Ди
У меня есть собственный веб-сайт с высокой посещаемостью, и я вижу то же самое в наших журналах apache за последний месяц или около того (у меня еще не было возможности проверить это раньше). 40% всех запросов - это процент, который я вижу, что, очевидно, чокнутый.
И я также заметил, что в запросах всегда говорится, что запрашивающий браузер не поддерживает сжатие gzip, в результате чего все запросы веб-страниц отправляются без сжатия, а использование полосы пропускания резко возрастает!
Но пока мне не удалось определить, что на самом деле происходит - все, что я подозреваю, это то, что это может быть какой-то прокси-сервер или что-то подобное для мобильного устройства, которое отправляет фальшивую строку агента пользователя.
ИЗМЕНЕНО ДЛЯ ДОБАВЛЕНИЯ: только что провел еще несколько исследований, и похоже, что это может быть антивирусное программное обеспечение: http://www.webmasterworld.com/search_engine_spiders/4428772.htm
Обновить от jamur21
Да, мы заметили схожий трафик на нескольких сайтах.
Мы все еще ищем первопричину, но некоторые из наших выводов включают:
Если это паук, то он плохо справляется. Кажется, что на какое-то время (может быть, пару часов) он обрабатывает только один или два URL-адреса на домен, пока не перейдет на другой URL-адрес. Тем не менее, содержание всегда относительно «актуально», что свидетельствует о том, что новости Google являются одним из факторов, о чем свидетельствует ссылка, которую Ди опубликовал в своем ответе (все наши сайты являются новостными).
Хотя IP-адреса распределены географически, нам кажется, что большинство из них расположены рядом с исходным сайтом (большинство наших сайтов являются местными новостными агентствами, поэтому они не получают большого национального трафика). Почти никто из запросов не поступает из-за пределов США. Опять же, это придает достоверность URL-адресам, получаемым из новостей Google (я предполагаю, что люди, которые локализовали Новости Google по почтовому индексу, увидят наш контент).
В большинстве случаев запросы могут быть списаны на фоновый шум (хотя и особенно шумный), но пару раз в день мы будем делать скачки, и один UA будет обеспечивать ~ 100 Мбит / с трафика в течение примерно 15-30 минут.
К сожалению, хотя Новости Google кажутся возможным вектором для обнаружения этих URL-адресов, все, что мы видели, является косвенным, и у нас до сих пор нет никакого дымящегося пистолета, чтобы точно сказать, как и почему эти URL-адреса забиваются.
Обновить от Bannow Bay
У нас есть большой новостной сайт - наши истории попадают в Новости Google несколько раз в неделю. Мы получаем трафик из этого источника с конца ноября - и он растет неделя за неделей - может быть, 30 миллионов показов в феврале.
Появление на первой странице Google News US является триггером для этого трафика - около 75 процентов якобы приходятся с IP-адресов США. Но что бы это ни было, оно прилагает огромные усилия, чтобы скрыть себя. И это недружелюбно.
Мы также не нашли дымящегося пистолета, но крупный поставщик средств безопасности любезно согласился провести дальнейшее расследование от нашего имени.
Обновить от Артем Русаковский
Просто то же самое впервые случилось с новостным сайтом (AndroidPolice.com). Около 10 минут этих случайных запросов, которые увеличили количество запросов в секунду более чем на 5000% от нашего среднего (5000 запросов в секунду, что является пределом для NodeBalancer Linode). ЦП начал бездействовать, поскольку запросы поглощали операции ввода-вывода и сеть - это был настоящий DDOS.
Я действительно хотел бы разобраться в этом, но на данный момент это кажется совершенно загадочным.
Обновить от отметка
Просто добавляю +1. Мы наблюдаем такое же поведение на нашем сайте. Здесь не нужно добавлять тонну новой информации, но вот общая форма нашего трафика:
Обновить от Дон Ирландия
Последний пост был 13 апреля, но трафик определенно не закончился. Самой странной частью этого может быть тот факт, что любой достойный автор вредоносного ПО наверняка (наверняка) мог бы использовать строку пользовательского агента из современного браузера, что сделало бы защиту блочного пользовательского агента бесполезной. Этот факт создает впечатление, что источником является «безобидный» агрегатор новостей или какое-то другое приложение. Однако до сих пор я также не смог прийти к какому-либо реальному выводу и надеюсь, что кто-нибудь, у кого есть информация, разместит ее здесь.
Мы наблюдаем ту же картину: история, подхваченная новостями Google, сопровождается очень высокими всплесками трафика, запрашивающего историю (но не вспомогательных файлов, таких как изображения). Исходящий ответный трафик вызывает всплески, которые могут привести к насыщению сети (или происходили, пока мы не начали отвечать только с ошибкой 503). Эти атаки (как еще их назвать?) Длятся в среднем около 30 минут, но очень популярные истории могут иметь высокий трафик в течение часа и более (я говорю о трафике firefox 3.0.10, конечно, нормальный трафик также остается высоким. какое-то время).
За один час (для одного сервера в группе с балансировкой нагрузки) мы увидели 200 000 запросов, из которых 97 000 были запросами firefox 3.0.10, почти 50% всех запросов. И если учесть, что обычно страница генерирует 10 или более запросов для основного файла и вспомогательных файлов, 97 000 вырисовываются намного больше. Замечу, что из 97 тысяч было 51 тысяча уникальных IP-адресов. И я говорю об одном часе (на самом деле это было ближе к 45 минутам). Все, что вызывает это, довольно широко распространено.
Обновить от user119708
У нас такая же проблема на огромном французском новостном сайте высоких технологий.
Всякий раз, когда новости публикуются и доступны для просмотра в новостях Google, трафик новостей значительно возрастает: от 50 до 100 посещений по IP и пользовательскому агенту Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10 ) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729) ».
Кажется, что все IP-адреса находятся во Франции или во французских странах и не имеют ссылки. Вроде бы бот, но почему один удаленный адрес должен возвращаться 50 или 100 раз в одной и той же новости в течение нескольких минут? Могли ли это быть зараженные компьютеры? Почему явление появляется, когда новость видна в новостях Google? Ответственен ли Google за этот странный трафик?
Если кто-то в этой теме нашел объяснение, я думаю, это поможет многим средним или крупным сайтам контролировать свой трафик!
РЕДАКТИРОВАТЬ: http://2bits.com/botnet/botnet-hammering-web-site-causing-outages.html Если это действительно зараженные компьютеры, это очень тревожно, учитывая количество задействованных адресов. Мы реализуем этот скрипт для Apache, чтобы блокировать весь трафик:
# Referer is empty
RewriteCond %{HTTP_REFERER} ^$
# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"
# Forbid the request
RewriteRule ^(.*)$ - [F,L]
Обновить от Эрнесто
Средний испанский общий новостной сайт, за последние несколько дней заметил высокую посещаемость некоторых нерелевантных новостей.
Кто бы это ни был, он загружает полный HTML-код, как мы замечаем из-за счетчика «просмотров страницы», который мы увеличиваем с помощью обновлений базы данных после загрузки страницы.
Мы замечаем только один или два URL-адреса, на которые нацелены каждый день.
Множество запросов (7000-12000) по одному и тому же URL за несколько секунд, распределенных в течение дня с разных IP-адресов. В следующие дни нацелены на другие URL.
Нет реферера.
Целевые статьи появились в Новостях Google, но мы не можем гарантировать, что это связано.
Google Analytics не распознает его как законный трафик. У нас есть статьи с более чем 8000 обращениями, а GA сообщает только 25 или около того (я предполагаю, что javascript не был интерпретирован).
Обновить от Старый Pro
Добавляем за вас несколько точек данных.
Боты против браузеров не считает этот UA ботом (пока).
На сайте с наибольшей посещаемостью, для которого у меня есть журналы, данные об использовании в мае 2012 года показывают, что этот UA составляет менее 1% трафика. Значительная часть запросов UA выглядит законной (например, загрузка всех ожидаемых ресурсов). Это в основном то же, что и в феврале 2012 года.
Главная страница этого сайта обновляется редко, а весь динамический контент блокируется файлом robots.txt.
Скорее всего, это от Genieo. Они обновили свое приложение, чтобы использовать новый пользовательский агент: Mozilla / 5.0 + (совместимый; + Genieo / 1.0 +http://www.genieo.com/webfilter.html). Он работает по тому же шаблону, что и исходный пользовательский агент, но теперь они, кажется, идентифицируют себя. Если вы посмотрите URL-адрес в их пользовательском агенте, они даже признают, что они, возможно, создавали или все еще генерируют слишком много трафика на определенные веб-сайты. -dflaw
Обновить от Майк Фэган
Мы уже несколько недель боремся с тем, что мы считали DDOS-атаками. Мы только начали рассматривать Genieo в качестве агента-пользователя для этих атак. Ранее мы видели «Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)» и множество запросов от » Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0 ". Более 10 тысяч разных IP-адресов, более 1 миллиона запросов в день всего на 3 или 4 страницы, где один и тот же IP-адрес запрашивал страницы более 100 раз и не извлекал никаких дополнительных ресурсов или рекламы. Я пришел к выводу, что ни один из этих IP-адресов фактически не переходил на другие страницы нашего сайта.
Я связался с Genieo, и это их ответ:
"Благодарим Вас за обращение к нам.
Старая версия Genieo могла вызвать описанные вами нагрузки трафика. Приносим извинения за возможные неудобства. Мы выпустили и обновили вчера, чтобы решить эту проблему, загрузка данных из нашего приложения должна исчезнуть в следующие 24 часа. Мы полагали, что оказываем вашему сайту хорошую услугу, представляя его новым пользователям. Мы не оценили должным образом, что по мере роста нашей установочной базы это могло вызвать перегрузку на некоторых местах.
Genieo - это личная газета или умный RSS-ридер. Это программа для чтения RSS на стороне клиента с интеллектуальной фильтрацией семантической персонализации. Приложение Genieo отслеживает RSS-данные с любимых сайтов пользователя, «читает» статьи, выполняя семантический анализ и фильтруя их по интересующим пользователей областям. Если статья соответствует интересам пользователя, приложение отображает заголовок и фрагмент статьи на домашней странице пользователя. Нажав на заголовок, вы перейдете на сайт статьи - ваш сайт. Агент Genieo автономен (из соображений конфиденциальности); он работает на компьютере конечных пользователей, поэтому вы видите, что агент обращается к вашему сайту с разных IP-адресов.
Большая часть данных Genieo поступает из обычных RSS-каналов пользователей, но Genieo также добавляет некоторый контент с новых новостных сайтов, которые ранее не были зарегистрированы пользователями (для интуитивной прозорливости и разнообразия). Алгоритмы Genieo ищут «горячие» статьи, самые популярные в Твиттере, самые просматриваемые на YouTube, а также основные моменты новостей Google и проверяют, соответствуют ли они интересам пользователя.
Нам не было известно, что это вызывает проблемы с загрузкой для некоторых сайтов. Как только это было доведено до нашего сведения, мы обновляем текущих пользователей новой версией, которая предотвращает скачки нагрузки.
С уважением,
-Дотан
Думаю, пользователь dflaw это нашел. Это программное обеспечение от Genieo. Мы сделали несколько тестов и связались с ними. Все результаты опубликованы Вот.