У меня есть 2 сервера с 4 GPU Tesla K40.
Я успешно создал кластер kubernetes с установленным kubeflow 1.0 и всем, что необходимо для его нормальной работы.
Я могу успешно создать сервер ноутбука Jupyter с 4 графическими процессорами и использовать на нем модель keras multigpu, и все работает нормально.
Могу ли я использовать 8 gpu (4 с одного сервера и 4 с другого) для создания сервера ноутбука jupyter или запуска любого gpupod, или мне доступны только 4 для одного gpupod?
Когда я пытаюсь использовать 8 графических процессоров, я получаю 0/2 nodes are available: 2 Insufficient nvidia.com/gpu
Могу ли я использовать 8 gpu (4 с одного сервера и 4 с другого) для создания сервера ноутбука jupyter или запуска любого gpupod, или мне доступны только 4 для одного gpupod?
Нет, модули Kubernetes могут одновременно использовать ресурсы только одной машины (узла).
Вы можете узнать больше Вот.
В качестве обходного пути вы можете запустить свой jupyter-сервер в одном кластере, но обучаться на графических процессорах из нескольких кластеров с некоторыми минимальными изменениями кода, в зависимости от того, с какой платформой вы работаете.
В kubeflow даже есть хорошая поддержка пользовательского интерфейса для этого. Вот несколько источников, о которых можно узнать больше:
Записная книжка kubeflow jupyter - это контейнер, и простая учебная работа может увеличить масштаб к количеству бесплатных графических процессоров, имеющихся в одном узле графического процессора вашего кластера Kubernetes.
Чтобы уменьшить масштаб ваше обучение по горизонтали и использование большего количества графических процессоров в вашей учебной работе, вам необходимо использовать распределенную структуру обучения. Kubeflow предоставляет tfjob для этой цели.