web-crawler – список вопросов по тегу – страница №4
Существует ли прямой прокси-сервер, который будет искать и подчиняться robots.txt файлы в удаленных интернет-доменах и применять их от имени запрашивающих через прокси...
Я заметил пару (якобы -) безобидных записей в журнале, и - надо признать, я сильно над этим задумываюсь - мне стало любопытно узнать о размерах ответов Apache2. Этот украинский...
Этим утром на нашем сервере сработал краулер, который заходил на наш сайт почти 100 раз в секунду. Мы хотели бы добавить для этого защиту. Думаю, мне нужно использовать...
Я веду сайт волонтерской организации. Я переместил сайт на WordPress, но так было не всегда. Я подозреваю, что однажды он был сильно взломан. Мой файл журнала ошибок Apache...
В течение примерно 2 часов пользователь, вошедший в систему на моем веб-сайте, получил доступ примерно к 1600 страницам, что подозрительно похоже на действия бота. Я обеспокоен...
После 2 дней поиска / попыток / неудач я решил опубликовать это здесь, я не нашел ни одного примера того, что кто-то делает то же самое, и то, что я пробовал, похоже, работает...
Я хотел бы отразить мой старый сайт в локальных файлах. Я использовал для этого httrack в прошлом, но на этот раз у меня возникла проблема, о которой я действительно думал, что...
Мне нужно заблокировать кучу роботов от сканирования нескольких сотен сайтов, размещенных на веб-сервере Nginx, работающем на машине Ubuntu 16.04. Я нашел довольно простой...
Я обслуживаю несколько поисковых роботов. Я хочу улучшить нашу систему нагрузки / регулирования, чтобы она стала более интеллектуальной. Конечно, я смотрю на коды ответов и в...
Можно ли запретить поисковому роботу загружать файлы (например, zip-файл) на мой сервер? Я предполагал создать PHP-скрипт с использованием файлов cookie для отслеживания...