Я пытаюсь получить кластер GKE (Google Cloud Kubernetes), предоставленный Terraform, работающий с пулом узлов GPU. Если кто-то может указать мне, чего мне не хватает, чтобы заставить работать пул узлов GPU, это было бы замечательно.
Я могу запустить работу с пулом узлов ЦП, но мне не удалось установить драйверы для пула узлов ГП. Есть хороший документация о том, как это настроить, но когда я пытаюсь следовать ему, я получаю ошибку на узлах графического процессора, которая говорит Can't access efivars filesystem at /sys/firmware/efi/efivars, aborting
от запуска демонсет то документы укажите на меня.
Я использую Ubuntu
изображение на n1-standard-16
экземпляры с T4
Графические процессоры и я могу подтвердить, что узлы работают с версией Kubernetes 1.11.10-gke.5
.
Интересное примечание, которое, я думаю, может быть ключом к разгадке, заключается в том, что на странице сведений об узле, к которой вы можете перейти, перейдя к кластеру, затем к узлам в кластере, а затем к одной из деталей узла графического процессора, является то, что он перечисляет количество GPU как 0, хотя это показывает, что у меня GPU accelerators
по 1 на узел со страницы сведений о пуле узлов. Я полностью предполагаю здесь, но я думаю, что это может быть потому, что я неправильно запросил ресурсы графического процессора для этого пула узлов, но я не могу понять, как это вписывается в ресурс Terraform google_container_node_pool. У меня есть это в google_container_node_pool
для пула узлов GPU:
resource "google_container_node_pool" "gpu_training_nodes" {
...
node_config {
...
guest_accelerator {
type = "nvidia-tesla-t4"
count = 1
}
}
}
Я смог заставить графические процессоры появляться и работать, доведя все узлы в кластере до одной и той же версии кубернетов. Раньше главный и центральный узлы были на 1.11.6-gke.11
. Понятия не имею, как это помогло, но это было единственное изменение, которое я внес. Возможно, при обновлении были сбиты, а затем повторно подготовлены определенные ресурсы, но при этом не нужно было останавливать узлы или что-то столь серьезное, поэтому я не уверен, как это повлияло на разницу ...
Я все еще получаю efivars
ошибка, но это не имеет значения (пока).