Назад | Перейти на главную страницу

Агрегация под радаром

Я подумываю написать приложение, которое собирает информацию с довольно популярного веб-сайта. Это приложение будет запрашивать информацию с этого веб-сайта с заданным интервалом. Я знаю, что это действительно сложный вопрос, на который даже не стоит ориентироваться, но какой интервал может быть хорошим безопасным, чтобы оставаться в основном «под радаром»? Я в первую очередь программист, во вторую - человек, а в третью - администратор сервера, поэтому мои знания о том, с чем может справиться серверное программное обеспечение, такое как Apache, при загрузке сервера с динамическим контентом, довольно базовые.

Я знаю, что этот вопрос ЧРЕЗВЫЧАЙНО открытый, и ответ зависит от многих переменных, но любые связанные опытные знания, которыми мы делимся, были бы очень признательны.

Во-первых, во-вторых и в-третьих, я бы посмотрел, есть ли у сайта API. В-четвертых, я бы посмотрел, есть ли на сайте Политика использования. Наконец, случайные числа - ваш друг.

Если он измеряется секундами и сайт с высоким трафиком, это не должно иметь большого влияния. Вероятно, более важным, чем ваш второй + интервал, является обеспечение правильного приема сжатых ответов и т. Д.

Хотя, если вы действительно пытаетесь быть вежливым, вам следует спросить у них разрешения или копии нужных вам данных.

Мой совет - взгляните на похожие сервисы. Сервисы с открытыми API обычно публикуют свои ограничения скорости. Например Twitter.

Хотя доступ к API - это нечто иное, чем то, что вы делаете, и это, конечно, не гарантирует, что вы «остаетесь вне поля зрения», но может дать вам представление.