Назад | Перейти на главную страницу

Как запретить ботам угадывать ссылку на моем сайте

Мой отчет logwatch, который я недавно установил, показывает мне следующее:

--------------------- httpd Begin ------------------------
0.78 MB transferred in 5864 responses  (1xx 0, 2xx 4900, 3xx 0, 4xx 964, 5xx 0)
160 Images (0.16 MB),
857 Content pages (0.62 MB),
4847 Other (0.00 MB)

Requests with error response codes
404 Not Found
  /%E2%80%98planeat%E2%80%99-film-explores-l ... greenfudge-org/: 1 Time(s)
  /10-foods-to-add-to-the-brain-diet-to-help ... -function/feed/: 1 Time(s)
  /10-ways-to-reboot-your-body-with-healthy- ... s-and-exercise/: 1 Time(s)
  /bachmann-holds-her-ground-against-raising ... com-blogs/feed/: 1 Time(s)
  /behind-conan-the-barbarians-diet/: 1 Time(s)
  /tag/dietitian/: 1 Time(s)
  /tag/diets/page/10/: 1 Time(s)
  /tag/directory-products/feed/: 1 Time(s)
  /wp-content/uploads/2011/06/1309268736-49.jpg: 1 Time(s)
  /wp-content/uploads/2011/06/1309271430-30.jpg: 1 Time(s)
  /wp-content/uploads/2011/06/1309339847-35.jpg: 1 Time(s)

моя заметка здесь: таких запросов, как указано выше, действительно много, и я вставил лишь несколько из-за ясности.

  A total of 12 ROBOTS were logged
  Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 2 Time(s)
  Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) 5 Time(s)
  Twitterbot/1.0 1 Time(s)
  Mozilla/5.0 (compatible; AhrefsBot/2.0; +http://ahrefs.com/robot/) 4 Time(s)
  Sosospider+(+http://help.soso.com/webspider.htm) 3 Time(s)
  msnbot/2.0b (+http://search.msn.com/msnbot.htm)._ 1 Time(s)
  Mozilla/5.0 (compatible; MJ12bot/v1.4.2; http://www.majestic12.co.uk/bot.php?+) 1    Time(s)
  msnbot-media/1.1 (+http://search.msn.com/msnbot.htm) 77 Time(s)
  Mozilla/5.0 (compatible; Ezooms/1.0; ezooms.bot@gmail.com) 1 Time(s)
  Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) 17 Time(s)
  Baiduspider+(+http://www.baidu.com/search/spider.htm) 11 Time(s)
  Mozilla/5.0 (compatible; Butterfly/1.0; +http://labs.topsy.com/butterfly/)    Gecko/2009032608 Firefox/3.0.8 1 Time(s)
  ---------------------- httpd End -------------------------

Итак, я думаю, что это что-то вроде бота (и, возможно, один из перечисленных выше), поэтому не могли бы вы рассказать мне, как я могу предотвратить их угадывание ссылок в надежде найти контент?

редактировать: Поскольку у меня есть VPS-сервер, на нем много доменов. Можете ли вы сказать мне, как я могу узнать, в каком домене произошла ошибка 404? Например, такая строка: / tag / dietitian /

На самом деле вы этого не сделаете больше, чем вы можете остановить обычных пользователей, угадывающих ссылки. Правильно защитите свой контент, и это все равно не будет проблемой.

Непонятные ссылки - небезопасный способ скрыть информацию.

Вы можете убедиться, что у вас правильно настроен файл robots.txt - это остановит большинство легальных ботов.

Один из способов - использовать fail2ban и настройте его под свои нужды. Вкратце: среди других своих функций fail2ban может отслеживать ваш журнал доступа Apache и после X количества совпадений типа Y может подвергнуть доступ клиента к штрафу Z минут, заблокировав IP-адрес клиента на XX минут.

Обычно достаточно, чтобы отпугнуть ботов, но будьте осторожны, это может очень хорошо блокировать законных пользователей, если вы недостаточно осторожны.

Сканеры поисковых систем не угадывают ссылки - они просто переходят по ним, если их не отговорили правила nofollow или robots.txt.

Если у вас есть запросы на несуществующие вещи от бота поисковой системы - сканер переходит по ссылке на общедоступной странице, которая указывает на нее, правильное действие - исправить / удалить ссылку.

Если это вредоносный бот - все, что вы можете сделать, это обнаружить его и заблокировать доступ. Если бот объявляет о себе - это легко, например, вы можете заблокировать его с помощью правила перезаписи

Вы можете добавить информацию о виртуальном хосте в журнал или использовать отдельные журналы для каждого виртуального хоста.

Видеть Документация по файлам журналов Apache