Назад | Перейти на главную страницу

Требования к памяти и хранилищу для одноузлового кластера Hadoop

Мне посоветовали изучить Hadoop для моей компании, поэтому я хочу создать тестовую среду.

Компания, в которой я работаю, имеет центр обработки данных с инфраструктурой VMware vCloud, которую они используют для продажи частных облаков другим компаниям.

Мне разрешено использовать некоторый процессор, оперативную память, сеть и хранилище, но я не могу найти требований базового уровня для Hadoop в небольшой тестовой среде.

Я думаю развернуть одну виртуальную машину, работающую как кластер с одним узлом, работая над простой задачей, такой как анализ тысяч PDF-документов по ключевым словам, извлечение абзацев и переформатирование в один HTML-документ.

Может ли кто-нибудь посоветовать минимальные требования, которые я должен предоставить для этой виртуальной машины, или где я могу найти эту информацию.

Спасибо.

Если вы просто хотите узнать, как работает Hadoop, я бы порекомендовал установить один из доступных дистрибутивов на виртуальную машину. Они предназначены для небольших обучающих сред, которые позволят вам работать с псевдораспределенным кластером, работающим внутри одного узла.

  1. Cloudera Quickstart VM
  2. Песочница Hortonworks
  3. Виртуальная машина MapR

Могут быть и другие; это как раз те, о которых я могу подумать с головы до ног.

Если вы хотите создать свою собственную виртуальную машину, ответ: это зависит от обстоятельств.

Вам, вероятно, будет хорошо, если вы начнете с 8–16 ГБ ОЗУ, несколькими сотнями гигабайт дискового пространства и 2–4 ядрами процессора. Этого было бы достаточно, чтобы заставить вас работать в псевдораспределенной конфигурации.

Если вы говорите о создании небольшого кластера, вам, вероятно, понадобится 4 узла: 1 именной узел (2-4 ГБ памяти, 1-2 процессора), 3 узла данных (4-8 ГБ памяти, столько места, сколько вы хотите / нужно). Этого было бы достаточно, чтобы получить работающую среду HDFS и Mapreduce, И дать вам опыт настройки и запуска кластера. Если вы пойдете по этому маршруту, вы, вероятно, захотите проверить Cloudera Manager или Амбари с Hortonworks.

РЕДАКТИРОВАТЬ:

Я почти забыл: VMware Серенгети могут быть вам интересны, поскольку вы работаете в инфраструктуре VMware.