Перейти на главную страницу

web-crawler – список вопросов по тегу – страница №2

Я хочу запустить nutch в ядре linux, я вошел в систему как пользователь root, я установил все переменные среды и настройки файла nutch. Я создал файл url.txt, содержащий...
Было предложено использовать mysql для поиска по нашему сайту, поскольку он будет работать на том же сервере, на котором размещены наш веб-сервер (nginx) и наша база данных...
Сайт сканирует анонимный бот, размещенный на Amazon ec2. Этот робот не уважает robots.txt и создает высокую нагрузку на веб-сервер, поэтому я добавил проверку, заканчивается ли...
Я нахожусь в сложной ситуации, паук Baidu атакует мой сайт, вызывая пропускную способность около 3 Гб в день. В то же время я веду бизнес в Китае, поэтому не хочу просто его...
Я запускаю ossec на своем сервере и периодически получаю такое предупреждение: Received From: myserver->/var/log/auth.log...
Наши веб-сайты регулярно сканируются похитителями контента. Мы, очевидно, хотим пропустить хороших ботов и законную активность пользователей, но заблокировать сомнительную...
Я ищу регулярно обновляемую базу данных различных ботов, пауков и сканеров. Я хочу иметь возможность идентифицировать их в файлах журнала из IIS.
В журналах моего веб-сайта много посещений с HTTP-референтом, настроенным на сайты, похожие на спам (я заметил, обычно российские сайты). Я предполагаю, что они просто...
Веб-сканер дважды покупал наш сайт. Он игнорирует наш файл robots.txt, и мы не получили ответа от их службы поддержки клиентов по электронной почте и в Twitter. Мне пришлось...
Недавно я заметил странный трафик в моих журналах доступа nginx. Я не уверен, указывают ли они на атаку, ошибку или что-то еще. Я начал отправлять их на HTTP 444, поэтому в...