Назад | Перейти на главную страницу

Относительно хранилища в Cloudera CDH 4.6 на инстансах Amazon EC2

Я планирую установить Cloudera CDH 4.6 на двух экземплярах m1.large в VPC. Cloudera предоставляет здесь инструкции для EC2: http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM4Ent/latest/Cloudera-Manager-Installation-Guide/cmig_install_on_EC2.html

Как указано в инструкции, «Экземпляры, предоставленные в AWS EC2 этим мастером, основаны на хранилище экземпляров, поэтому все данные будут потеряны при остановке или завершении работы экземпляра».

Я буду часто запускать и останавливать экземпляры. Меня не волнует сохранение данных, хранящихся в HBase, в HDFS, но нужно ли переустанавливать Cloudera после каждого запуска экземпляра? Мне неясно, сохранятся ли установка и ее конфигурация.

Хотя технически можно создать кластер hadoop на AWS с использованием инстансов, поддерживаемых EBS, необходимо отметить, что это предотвращает локальность данных, которая является основой архитектуры hadoop. С экземплярами, поддерживаемыми EBS, вы принудительно выполняете чтение / запись данных в заданиях сокращения карты, чтобы совершать сетевые перемещения.

Зачем? Поскольку магазины EBS на самом деле являются сетевыми дисками. Любое чтение / запись, выполняемое заданиями MR на узле данных, заставит биты перемещаться туда и обратно между ОЗУ узла данных и сетевыми дисками.

Эфемерные хранилища / хранилища экземпляров - это локальные виртуальные диски, подключенные к этому экземпляру EC2, и поэтому они самые быстрые. Также, если вы используете экземпляр HS1 EC2, хранилища экземпляров оптимизированы для последовательных чтений, что и делает hadoop.

Хранилища EBS оптимизированы для случайного ввода-вывода, поэтому последовательный ввод-вывод будет страдать при выполнении заданий hadoop.

Это компромисс.

Вся ваша конфигурация исчезнет после того, как вы прекратите instance-store тип экземпляра. Таким образом, каждый раз, когда вы добавляете новые экземпляры в кластер или создаете новый кластер, Cloudera Manager должен переустанавливать все необходимое для запуска и работы (в зависимости от роли сервера: hdfs, hive, hbase, namenode, datanode и т. Д. )

Если вам нужна настраиваемая и конкретная конфигурация, вам, вероятно, следует рассмотреть возможность использования настраиваемых AMI (которые позволяет вам Cloudera Manager). Однако для большей гибкости вместо создания instance-store AMI вам, вероятно, следует создать EBS backed AMI. Этот тип AMI / экземпляров позволит вам останавливать / перезапускать / создавать снимки / создавать другой AMI. Кроме того, если вы хотите воспользоваться преимуществами эфемерного хранилища (быстрее), вы также можете создать EBS backed AMI с временным хранилищем в качестве дополнительного устройства.