Назад | Перейти на главную страницу

Не удается запустить датанод HDFS, когда диски заполнены

Наш кластер HDFS заполнен только на 90%, но на некоторых узлах данных есть диски, заполненные на 100%. Это означает, что когда мы массово перезагружаем весь кластер, некоторые датоды полностью не запускаются с таким сообщением:

2013-10-26 03: 58: 27,295 ОШИБКА org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Mkdirs не удалось создать / mnt / local / sda1 / hadoop / dfsdata / blocksBeingWritten

Только три должны потерпеть неудачу, прежде чем мы начнем испытывать настоящую потерю данных.

В настоящее время мы пытаемся решить эту проблему, уменьшив объем пространства, зарезервированного для пользователя root, но в конечном итоге у нас закончится. Мы также почти постоянно запускаем ребалансировку, но некоторые диски все равно застревают на 100%.

Изменение параметра dfs.datanode.failed.volumes.tolerated не является решением, поскольку том не отказал.

Любые идеи?

hadoop hdfs

Возможно, вам следует вручную переместить данные из одного тома в другой в пределах одного узла данных:

3.12. Как сбалансировать блоки на диске на отдельном узле данных?

В настоящее время Hadoop не имеет метода, позволяющего делать это автоматически. Для этого вручную:

Выключите задействованный DataNode
Используйте команду UNIX mv, чтобы переместить отдельные реплики блока и мета-пары из одного каталога в другой на выбранном хосте. В выпусках с HDFS-6482 (Apache Hadoop 2.6.0+) вам также необходимо убедиться, что структура каталогов с именем вложенного каталога остается точно такой же при перемещении блоков по дискам. Например, если реплика блока и ее метапара находились в /data/1/dfs/dn/current/BP-1788246909-172.23.1.202-1412278461680/current/finalized/subdir0/subdir1/, и вы хотели переместить ее в / data / 5 / disk, то он ДОЛЖЕН быть перемещен в ту же структуру подкаталогов, что и ниже, т.е. /data/5/dfs/dn/current/BP-1788246909-172.23.1.202-1412278461680/current/finalized/subdir0/subdir1/ . Если это не поддерживается, DN больше не сможет находить реплики после перемещения.
Перезапустите DataNode.

Источник: https://wiki.apache.org/hadoop/FAQ

Согласно этому параметр HDFS по умолчанию, то dfs.datanode.du.reserved на объем. Поэтому, если вы установите 10 ГБ, а на вашем datanode 4 тома, настроенных для HDFS, будет выделено 40 ГБ для использования без DFS.

в вашем случае равномерная балансировка данных по узлам данных кластера может помочь вам избежать переполнения дисков, даже если в общем кластере есть место, вы можете периодически запускать балансировщик hadoop oob. это будет перемешивать блоки, так что все узлы данных будут использовать одинаковый объем дискового пространства

    hadoop balancer

вы можете указать порог для этого скрипта, по которому блоки hdfs будут сбалансированы, по умолчанию 10, вы можете указать меньшее число, если считаете, что 10% недостаточно, я вижу, вы уже используете 90% пространства на hdfs, поэтому вы можете выбрать 5

    hadoop balancer 5

проверьте это ссылка1 ссылка2 также для получения дополнительной информации о балансировщике

Я думаю, что вам действительно нужно установить для dfs.datanode.du.reserved какое-то ненулевое значение, чтобы узел данных гарантировал, что на системных томах HDFS всегда будет свободное место.

Примечание: dfs.datanode.du.reserved предназначен для свободного пространства на вся система, а не за том.

В соответствии с HDFS-1564, обсуждается возможность создания опции для каждого тома, но она еще не запланирована для какой-либо конкретной версии.