Я планирую развертывание пауков через scrapy с помощью cron. У каждого паука одна линия. Теперь, когда у вас 100 пауков, это становится довольно сложно планировать и управлять. Как рекомендуется управлять большим количеством рабочих мест? Рассмотрение потенциального времени обслуживания, необходимого для приостановки / возобновления работы, среди прочего, таких как дублирование работ и т.
Не используйте cron
Если ваши потребности сложны, вы можете рассмотреть возможность использования более продвинутого продукта, который предназначен для выполнения сложных расписаний (распределенных по нескольким серверам) и который поддерживает триггеры, зависимости заданий, обработку ошибок, повторные попытки и мониторинг повторных попыток и т. Д. Промышленный жаргон будет звучать так: " планирование работы и / или «автоматизация рабочей нагрузки».
Если вам нужно запланировать, КОГДА задача будет запускаться, а не КАК ЧАСТО, вы можете продолжать использовать cron. Чтобы избежать перекрестного выполнения задач, вы можете позволить cron выполнить только короткий скрипт, который добавляет задачу в какую-то очередь (redis, rabbitmq, база данных sql) и позволить другому скрипту использовать эту очередь и выполнять рабочие нагрузки последовательно или с ограниченным параллелизмом. Это, конечно, создает другую категорию проблем, например, как обрабатывать зависшие рабочие нагрузки, блокирующие запуск других :)