У меня есть школьный проект, в котором я работаю в классе по веб-майнингу, где мне нужно собрать много данных с определенных сайтов социальных сетей. Мне нужны данные из большого количества отдельных хэштегов на сайте. У меня есть сценарий python, который успешно захватывает все данные, которые мне нужны для одного хэштега, выполняя последовательные HTTP-запросы, пока он не захватит все записи, необходимые для указанного диапазона времени, и продаст их в большой файл csv. Мне нужно пару тысяч раз запустить эту программу для разных хэштегов. Для некоторых очень популярных хэштегов программа запускается за несколько часов. Однако многие хэштеги будут намного быстрее. Я написал сценарий bash, который последовательно запускает программу python для каждого хэштега, но сбор всего необходимого займет очень много времени.
Я хотел использовать какую-то службу облачных вычислений, такую как Google Compute Engine, AWS или azure, чтобы запускать несколько экземпляров этой программы по отдельности параллельно, чтобы я мог собирать данные для многих хэштегов одновременно. Возможно, у меня могло бы быть большое количество облачных машин, на которых была запущена программа для разных хэштегов одновременно. Это просто для того, чтобы я мог быстрее собрать все необходимые данные.
У меня не очень большой опыт работы с облачными вычислениями, за исключением нескольких раз, когда я использовал вычислительный движок Google для простых программ, которые мне нужно было запустить только один раз. Я пробовал читать о группах экземпляров, но до сих пор не совсем уверен, как их использовать для этой цели. Еще меньше я знаком с предложениями AWS и Azure.
Как лучше всего это сделать?
Не зная больше о вашем конкретном скрипте, вы, вероятно, захотите что-то, что может запускать лямбда-функции:
Не нужно беспокоиться о виртуальных машинах, платите посекундно за гигабайт, и сразу после этого. Нет инфраструктуры, которую нужно не забыть снести. Он просто запустит ваш скрипт в своей собственной среде и разорвет его, когда он будет готов.
Может быть немного дороже для более длительных сценариев, но должно быть очень дешево для быстрых.