Назад | Перейти на главную страницу

Hadoop Hive, Impala, Pig и другие - доступ SQL к Hadoop?

Похоже, что Hive, Impala, Pig и другие предоставляют SQL или аналогичный SQL доступ к данным, хранящимся в кластерах Hadoop. Кажется, что все они поддерживают HDFS, S3 и другие формы.

Итак, почему существует так много разных способов доступа к информации Hadoop с помощью SQL, чем они отличаются и как сравнивается их производительность?

Неужели у нас так много разных версий, потому что все проекты были запущены одновременно по более или менее одной и той же причине? Если да, то есть ли преимущество знать более одного из них?

Я нашел несколько статей, в которых пытаются объяснить различия (например, 10 способов запроса hadoop с помощью SQL и Выбор правильного SQL в Hadoop, но в основном они просто перечисляют функции.

sql hadoop