Я пытаюсь добавить модуль GPU Nvidia в ганглии (/ganglia/gmond_python_modules/gpu/nvidia/
).
Нужно ли нам применять ganglia_web.patch
патч?
Если я не применяю патч, я не вижу никаких показателей графического процессора, когда перехожу в http: // локальный / ганглии /
Если я попытаюсь применить патч, у меня возникнет следующая проблема:
ubuntu@server:/usr/share/ganglia-webfrontend$ sudo patch -p0 < /home/ubuntu/gmond_python_modules/gpu/nvidia/ganglia_web.patch
sudo: unable to resolve host server
patching file host_view.php
Hunk #1 FAILED at 17.
Hunk #2 FAILED at 37.
Hunk #3 FAILED at 144.
Hunk #4 FAILED at 153.
Hunk #5 FAILED at 169.
5 out of 5 hunks FAILED -- saving rejects to file host_view.php.rej
patching file templates/default/host_view.tpl
Hunk #1 FAILED at 80.
Hunk #2 FAILED at 89.
2 out of 2 hunks FAILED -- saving rejects to file templates/default/host_view.tpl.rej
ubuntu@server:/usr/share/ganglia-webfrontend$ cd /usr/share/ganglia-webfrontend
В Прочти меня не упоминает, что делать с файлом патча.
Веб-интерфейс действительно содержит метрику GPU, но все изображения 404:
Когда я иду в Grid > [name] > [gpu node]
, Я не вижу вариантов с графическим процессором:
На сервере Ganglia (т. Е. На сервере, где gmetad
работает), я побежал:
git clone https://github.com/ganglia/gmond_python_modules.git
sudo cp gmond_python_modules/gpu/nvidia/graph.d/* /usr/share/ganglia-webfrontend/graph.d/
sudo /etc/init.d/gmetad restart
На клиенте Ganglia (т. Е. На сервере, где gmond
работает, и где находится графический процессор), я запустил:
git clone https://github.com/ganglia/gmond_python_modules.git
sudo pip install nvidia-ml-py
sudo cp gmond_python_modules/gpu/nvidia/python_modules/nvidia.py /usr/lib/ganglia/nvidia.py
sudo cp gmond_python_modules/gpu/nvidia/conf.d/nvidia.pyconf /etc/ganglia/conf.d
sudo /etc/init.d/ganglia-monitor restart
Я использую:
В Ubuntu xenial я обнаружил, что мне также нужно добавить modpython.conf
сказать ганглии modpython.so
загрузить nvidia.py
модуль:
sudo pip install nvidia-ml-py
Из источника:
cp conf.d/nvidia.pyconf /etc/ganglia/conf.d/
cp python_module/nvidia.py /usr/lib/ganglia/python_modules/
Если у вас нет /etc/ganglia/conf.d/modpython.conf
cat <<EOF | sudo tee /etc/ganglia/conf.d/modpython.conf
modules {
module {
name = "python_module"
path = "/usr/lib/ganglia/modpython.so"
params = "/usr/lib/ganglia/python_modules/"
}
}
include ('/etc/ganglia/conf.d/*.pyconf')
EOF
Я столкнулся с этим, как ни странно, вчера. Спросил у разработчика модуля. Он сказал, что это должно «просто работать» ... Итак, немного поиграв, я обнаружил, что работает следующее:
На веб-хостинге:
На узле GPU (обратите внимание, это имена и расположение пакетов RHEL / SL / Cent):
Из источника:
cp conf.d/nvidia.pyconf /etc/ganglia/conf.d/
cp python_module/nvidia.py /usr/lib64/ganglia/
Перезапустить gmond
Нет необходимости сейчас исправлять веб-дерево. Итак, в веб-интерфейсе перейдите по ссылке:
Grid > [name] > [gpu node]
Теперь в листинге должны быть "показатели графического процессора". Может захочется свернуть и посмотреть. Если здесь не по какой-то причине вы можете перейти в Сетка> [Имя] страницы, а внизу в раскрывающемся списке Metric выберите одну из метрик gpu_ *. Который может пнуть что-нибудь, как только вы это сделаете. Мне пришлось это сделать, чтобы на одном из узлов отображалась секция «gpu metrics» ... но на другом я этого не сделал.
YMMV.
-J