Я новичок в hadoop и AWS. Я установил многоузловой (4 экземпляра t2.large) кластер AWS EC2 с распределением cloudera Hadoop. Я протестировал среду на базовых примерах, используя файлы CSV, такие как количество слов.
Сейчас мой основной проект - анализировать данные в файлах JSON. У меня около 4 миллионов файлов JSON, примерно 60 ГБ данных. В каждом файле есть большая запись JSON, в основном вся информация об одной записи в каждом файле.
Я немного не понимаю, как к этому подойти. Можно скопировать файлы в HDFS и создать задания Map Reduce (используя java, насколько мне это удобно) для создания больших файлов CSV, а затем создать таблицы из этих CSV в Hive для анализа. Поскольку локальное преобразование этих файлов в CSV может занять много времени. Даже копирование этих файлов в AWS будет медленным, но после копирования я могу использовать вычислительную мощность экземпляра. Не уверены, что это правильно? С чего начать?
Есть ли способ обработать JSON напрямую или любой другой подход, который сделает процесс эффективным? У меня есть около 1 месяца на то, чтобы преобразовать эти данные в форму, которую можно будет запросить, а затем продолжить оттуда.
Любая помощь будет действительно полезной.