Мне посоветовали изучить Hadoop для моей компании, поэтому я хочу создать тестовую среду.
Компания, в которой я работаю, имеет центр обработки данных с инфраструктурой VMware vCloud, которую они используют для продажи частных облаков другим компаниям.
Мне разрешено использовать некоторый процессор, оперативную память, сеть и хранилище, но я не могу найти требований базового уровня для Hadoop в небольшой тестовой среде.
Я думаю развернуть одну виртуальную машину, работающую как кластер с одним узлом, работая над простой задачей, такой как анализ тысяч PDF-документов по ключевым словам, извлечение абзацев и переформатирование в один HTML-документ.
Может ли кто-нибудь посоветовать минимальные требования, которые я должен предоставить для этой виртуальной машины, или где я могу найти эту информацию.
Спасибо.
Если вы просто хотите узнать, как работает Hadoop, я бы порекомендовал установить один из доступных дистрибутивов на виртуальную машину. Они предназначены для небольших обучающих сред, которые позволят вам работать с псевдораспределенным кластером, работающим внутри одного узла.
Могут быть и другие; это как раз те, о которых я могу подумать с головы до ног.
Если вы хотите создать свою собственную виртуальную машину, ответ: это зависит от обстоятельств.
Вам, вероятно, будет хорошо, если вы начнете с 8–16 ГБ ОЗУ, несколькими сотнями гигабайт дискового пространства и 2–4 ядрами процессора. Этого было бы достаточно, чтобы заставить вас работать в псевдораспределенной конфигурации.
Если вы говорите о создании небольшого кластера, вам, вероятно, понадобится 4 узла: 1 именной узел (2-4 ГБ памяти, 1-2 процессора), 3 узла данных (4-8 ГБ памяти, столько места, сколько вы хотите / нужно). Этого было бы достаточно, чтобы получить работающую среду HDFS и Mapreduce, И дать вам опыт настройки и запуска кластера. Если вы пойдете по этому маршруту, вы, вероятно, захотите проверить Cloudera Manager или Амбари с Hortonworks.
РЕДАКТИРОВАТЬ:
Я почти забыл: VMware Серенгети могут быть вам интересны, поскольку вы работаете в инфраструктуре VMware.