Назад | Перейти на главную страницу

Чистый металл для больших данных: могут ли все они работать вместе в одном кластере?

Я ОЧЕНЬ новый системный администратор (класс 16), и меня попросили создать кластер больших данных с 3 серверами PowerEdge без операционной системы. У меня есть следующий запрос для размещения в кластере:

* Hadoop2 * YARN * Java 7 и 8 * Spark * SBT * Maven * Scala * P7zip * Pig * Hive * R (библиотеки для Spark и Hadoop) * Zeppelin * Cassandra

Я хотел бы знать, могут ли все они «хорошо сочетаться», поскольку я очень мало знаю о больших данных, а поиск приводит к появлению большого количества страниц «x VS y», а не «x AND y». И есть ли предпочтительный отраслевой стандарт?

Заранее благодарю за совет!

Конечно, они могут сосуществовать на этих серверах, хотя обычно вы будете использовать один тип сервера для хранения фактических данных, а другой - для выполнения тяжелой вычислительной работы. Также немного нестандартно запускать Cassandra DB на тех же серверах, но опять же, вы можете сделать все это, это будет работать, это не совсем то, как я бы это сделал.

В случае, если серверы еще не заказаны и вы можете повлиять на их технические характеристики, я бы попробовал создать банк больших медленных дисков для данных (обычно 3,5-дюймовые диски с несколькими ТБ, 7,2 об / мин), а затем несколько SSD или Диски со скоростью 10 об / мин для БД и вычислений. Запуск всего этого с одного типа диска не всегда имеет смысл. Это также будет довольно интенсивным объемом памяти, не экономьте на этом, также вам, вероятно, понадобится разумное количество ядер ЦП, Я бы сказал, что по крайней мере 12 или больше на сервер для всей этой работы.

В любом случае, я надеюсь, что это поможет, и взгляните на Cloudera и Ambari на предмет их сред Hadoop, они не бесплатны, но могут избавить вас от головной боли.