Перейти на главную страницу

web-crawler – список вопросов по тегу – страница №3

У меня сайт с низкой посещаемостью, менее 500 посещений в день. У него 6 ГБ памяти, и он недостаточно загружен, в среднем используется 5%. Но как только googlebot устанавливает...
Я хочу поэкспериментировать с созданием поискового робота. Я начну с индексации нескольких веб-сайтов среднего размера, таких как Stack Overflow или Smashing Magazine. Если это...
Недавно я получил большое количество посещений моей домашней страницы от 64.235.153.8. Он вращается barracuda.com Я знаю Barracuda как решение для обнаружения и предотвращения...
Я установил новый экземпляр Amazon EC2. Через день или два начали приходить странные запросы «GET» от IP-адресов «вроде ботов Google» (например, 66.249.76.84, 66.249.74.152)...
В учебных целях я хочу создать простой веб-индексатор, который сканирует Интернет и сохраняет все найденные страницы в базе данных MySQL с их заголовками и URL-адресами с...
У меня есть старый веб-сайт, работающий на старой версии Oracle Portal, который нам нужно преобразовать в структуру с плоским HTML. Из-за повреждения сервера мы не можем...
Я знаю могу создать ОДИН файл robots.txt для всех доменов на сервере Apache *, но я хочу добавить в файл robots.txt каждого домена (если он уже существует). Мне нужны некоторые...
Мой сайт сильно пострадали от спам-ботов и парсеров. Я использовал Cloudflare, но проблема все еще существует. Проблема заключается в том, что спам-боты обращаются к...
А сценарий шаблона рельсов что я смотрел автоматически добавляет User-Agent: и Dissalow: в robots.txt, тем самым запрещая всем паукам с сайта Каковы преимущества запрета пауков...
Я периодически проверяю журналы своего сервера и замечаю, что многие сканеры ищут местоположение phpmyadmin, zencart, roundcube, разделов администратора и других...