Может это глупый вопрос, но ...
Я работаю с этой компанией, и они сказали, что им нужно получить «разрешение» на сканирование чужих сайтов. У них есть Google Search Appliance и некоторые мини-приложения Google, и они хотят направлять их на другие сайты для агрегирования контента. Конечным результатом будет что-то вроде целевой поисковой системы. (Все проиндексированные сайты относятся к определенной теме)
Единственное, что они будут делать, это:
Их цель не носит злонамеренного характера, а состоит в том, чтобы предоставить людям единый сайт / ресурс, на который они могли бы ссылаться по данной теме.
Есть ли в этом процессе что-то незаконное или подозрительное?
Это должно быть нормально, если ваше сканирование соблюдает файл robots.txt сайтов.
Поиск в Google файла robots.txt даст вам много информации.
Вкратце, это файл, в котором указывается, как сканер / робот получает доступ к сайту, разрешенный и запрещенный контент, скорость доступа, время суток и т. Д.