Назад | Перейти на главную страницу

Могу ли я использовать Google Appliance / Mini для сканирования и индексации сайтов, которые мне не принадлежат?

Может это глупый вопрос, но ...

Я работаю с этой компанией, и они сказали, что им нужно получить «разрешение» на сканирование чужих сайтов. У них есть Google Search Appliance и некоторые мини-приложения Google, и они хотят направлять их на другие сайты для агрегирования контента. Конечным результатом будет что-то вроде целевой поисковой системы. (Все проиндексированные сайты относятся к определенной теме)

Единственное, что они будут делать, это:

  1. Индексирование контента с других сайтов / доменов
  2. Предоставление функции поиска на собственном сайте, который выполняет поиск по проиндексированному контенту (например, в Google, отображая резюме, а не весь контент)
  3. Результаты поиска будут содержать ссылки на исходное содержание.

Их цель не носит злонамеренного характера, а состоит в том, чтобы предоставить людям единый сайт / ресурс, на который они могли бы ссылаться по данной теме.

Есть ли в этом процессе что-то незаконное или подозрительное?

Это должно быть нормально, если ваше сканирование соблюдает файл robots.txt сайтов.

Поиск в Google файла robots.txt даст вам много информации.

Вкратце, это файл, в котором указывается, как сканер / робот получает доступ к сайту, разрешенный и запрещенный контент, скорость доступа, время суток и т. Д.