Назад |
Перейти на главную страницу
Многопользовательское (многопользовательское) решение для инфраструктуры контейнера графического процессора
Что нам нужно: Несколько команд из разных компаний хотят использовать наши графические процессоры для задач глубокого обучения (три компьютера с несколькими графическими процессорами в каждом). Так что управляйте несколькими графическими процессорами для нескольких пользователей.
- Разные команды не должны иметь доступа к данным других команд.
- Сами команды должны иметь возможность запускать любой контейнер, который им нужен (с помощью графического процессора, например, tensorflow и т. Д.).
- Каждая команда должна иметь как минимум 8 графических процессоров и максимум, например, 15 графических процессоров, поэтому графические процессоры используются большую часть времени
- Статистические данные об использовании графического процессора были бы полезны, чтобы увидеть, кто их не использует.
- Доступ нескольких контейнеров к одним и тем же наборам данных (для каждой команды) для обучения
- Команды не должны иметь возможность выходить из контейнера, например монтировать '/' с хоста в контейнер докера и удалять / удалять / редактировать случайные файлы на сервере, что может привести к утечке данных.
Вопрос: Какие инструменты с открытым исходным кодом лучше всего подходят для этого?
например что-то вроде Rancher 2.0? Мезосфера? Как нам настроить хранилище? NFS? Как работает Убер? Google? Другие стартапы DL так делают?
Подобные вопросы без ответа: