Назад | Перейти на главную страницу

Более миллиона 404-х?

Используя Analog 6 для веб-статистики, я удивлен, увидев более миллиона 404 за 54 дня. Я правильно на это смотрю? Неужели это необычное соотношение просмотров страниц с ошибкой 404 и 200? Я не вижу 404 в списке реальных URL; где будет список неработающих URL-адресов? Сайт представляет собой комбинацию страниц html, WordPress и asp на unix / apache, если это важно.

Requests       Status Codes
 6548392       200 OK
     807       206 Partial content
 1830136       301 Document moved permanently
   61795       302 Document found elsewhere
 3091342       304 Not modified since last retrieval
    3042       400 Bad request
   49012       403 Access forbidden
 1043694       404 Document not found
    2936       500 Internal server error
     411       503 Service temporarily unavailable

Общая статистика:

Successful requests:                   9,640,541 
Average successful requests per day:     183,490 
Successful requests for pages:         1,620,543
Failed requests:                       1,099,095 (20,066)

Список неработающих URL-адресов будет в фактических файлах журнала. Прямо сейчас кажется, что ~ 15% запросов к вашей системе - это 404. Это кажется необычно высоким.

Если бы я предполагал, я бы поспорил, что ваш шаблон страницы содержал ссылку на неработающее изображение, javascript или файл css.

Быстрый поиск файлов журнала, вероятно, откроет большую часть деталей.

Я согласен, что это довольно большое количество ошибок 404, но это могут быть автоматизированные боты, пытающиеся использовать известные дыры в программном обеспечении.

Конечно, это не совсем то же самое, но у меня на нашем веб-сервере есть десятки тысяч 404 в месяц, и, анализируя URL-адреса, это похоже на то, что какой-то бот пробует известные SQL-инъекции в сотни различных продуктов (ни один из которых мы не установили).

Это гигантская начальная задача, но исключите URL-адреса эксплойтов из предпочитаемого вами способа поиска подлинных 404-х, и он станет намного более точным.

Если вы не можете получить доступ к необработанным журналам, как уже предлагалось, рассмотрите возможность сканирования своего сайта, чтобы найти неработающие ссылки. Видеть Проверка ссылок W3C, указав Проверять связанные документы рекурсивно, глубина рекурсии как имеет смысл.