Назад | Перейти на главную страницу

Hadoop - для чего нужны сценарии / usr / sbin / shell?

Я устанавливаю Hadoop 1.1.2 на CentOS 6.4.

Я прочитал всю документацию Hadoop по адресу http://hadoop.apache.org/docs/stable/

После установки я заметил, что в / usr / sbin / есть много сценариев оболочки. Но документация не объясняет, что делает большинство из них.

Например:

hadoop-create-user.sh
hadoop-setup-conf.sh
hadoop-setup-hdfs.sh
hadoop-setup-single-node.sh
hadoop-validate-setup.sh
slaves.sh
start-balancer.sh
start-jobhistoryserver.sh
stop-balancer.sh
stop-jobhistoryserver.sh
update-hadoop-env.sh

Есть ли дополнительная документация, объясняющая эти сценарии?

hadoop-create-user.sh устанавливает домашний каталог указанного пользователя в HDFS по пути / user.

hadoop-setup-conf.sh используется для начальной загрузки конфигурации кластера в новом кластере.

hadoop-setup-hdfs.sh используется для форматирования структуры HDFS и создания стандартного дерева каталогов внутри HDFS. Это разрушительный инструмент, который может вызвать плохие вещи в существующем кластере, такие как потеря данных.

hadoop-setup-single-node.sh предназначен для настройки развертывания с одним узлом, часто известного как псевдораспределенный кластер. Это заставляет все необходимые демоны работать в одной системе.

hadoop-validate-setup.sh бежит тераген, терасорт и теравалидат как способ провести дымовую проверку кластера и убедиться, что он работает правильно. Это базовый тест.

slaves.sh позволяет запускать команду на всех ведомых устройствах в кластере (в основном, на узлах данных).

start-balancer.sh бежит балансировщик хадупов, что приводит к тому, что именной узел перемещает блоки на узлах данных, чтобы убедиться, что все узлы данных используют (примерно) равный объем дискового пространства. Это служебная задача, которую следует выполнять периодически.

start-jobhistoryserver.sh - это инструмент для запуска сервера истории заданий, который предоставляет информацию о заданиях, которые были запущены на стороне mapreduce кластера.

stop-balancer.sh и stop-jobhistoryserver.sh являются противоположностью двух вышеупомянутых.

update-hadoop-env.sh обновляет сценарий hadoop-env.sh, который используется для настройки общих переменных среды, необходимых для всех инструментов и демонов hadoop в кластере.

Для некоторых из этих вещей не так уж много документации. Вам просто нужно покопаться в скриптах, чтобы увидеть, что они на самом деле делают.