Перейти на главную страницу

web-crawler – список вопросов по тегу – страница №1

Я узнал, что McAfee SiteAdvisor сообщил о моем веб-сайте как "могут быть проблемы с безопасностью". Меня мало волнует, что McAfee думает о моем веб-сайте (я могу защитить его...
Как крупные сайты (например, Википедия) справляются с ботами, которые скрываются за другим IP-маскером? Например, в моем университете все ищут в Википедии, что придает ей...
У меня проблема с одним человеком, который продолжает агрессивно очищать мой сайт; трата ресурсов ЦП и полосы пропускания. Я уже реализовал систему, которая отслеживает журналы...
Я установил Apache некоторое время назад, и быстрый просмотр моего журнала access.log показывает, что подключаются всевозможные неизвестные IP-адреса, в основном с кодом...
Если я хочу, чтобы мой основной веб-сайт отображался в поисковых системах, но ни один из поддоменов не был, должен ли я просто поместить файл robots.txt «запретить все» в...
Я запустил относительно новый веб-сайт, отправил его в Google и все такое. Я также использую инструменты Google для веб-мастеров. Мне интересно, как определить частоту доступа...
У меня несколько сайтов в /24 сеть, которую Google сканирует довольно регулярно. Обычно это нормально. Однако, когда Google начинает сканировать все сайты одновременно...
Всего через несколько часов после внесения некоторых изменений в HTML-код моего сайта я обнаружил, что Google обновил результаты поиска по моему сайту. Интернет настолько...
Мой гугл-фу меня сейчас подводит. Я пытаюсь выяснить, загружает ли веб-сканер Google двоичные файлы без изображений, когда он просматривает сайты. Я знаю, что он загружает (и...
Я использую nginx на своем сервере, и несколько дней назад я заметил странный запрос в моем журнале access.log: 77.50.217.37 - - [19/Aug/2011:17:50:50 +0200] "GET...