Назад | Перейти на главную страницу

Графический процессор на Terraform GKE Не удается получить доступ к файловой системе efivars в / sys / firmware / efi / efivars, прерывание

Я пытаюсь получить кластер GKE (Google Cloud Kubernetes), предоставленный Terraform, работающий с пулом узлов GPU. Если кто-то может указать мне, чего мне не хватает, чтобы заставить работать пул узлов GPU, это было бы замечательно.

Я могу запустить работу с пулом узлов ЦП, но мне не удалось установить драйверы для пула узлов ГП. Есть хороший документация о том, как это настроить, но когда я пытаюсь следовать ему, я получаю ошибку на узлах графического процессора, которая говорит Can't access efivars filesystem at /sys/firmware/efi/efivars, abortingот запуска демонсет то документы укажите на меня.

Я использую Ubuntu изображение на n1-standard-16 экземпляры с T4 Графические процессоры и я могу подтвердить, что узлы работают с версией Kubernetes 1.11.10-gke.5.

Интересное примечание, которое, я думаю, может быть ключом к разгадке, заключается в том, что на странице сведений об узле, к которой вы можете перейти, перейдя к кластеру, затем к узлам в кластере, а затем к одной из деталей узла графического процессора, является то, что он перечисляет количество GPU как 0, хотя это показывает, что у меня GPU accelerators по 1 на узел со страницы сведений о пуле узлов. Я полностью предполагаю здесь, но я думаю, что это может быть потому, что я неправильно запросил ресурсы графического процессора для этого пула узлов, но я не могу понять, как это вписывается в ресурс Terraform google_container_node_pool. У меня есть это в google_container_node_pool для пула узлов GPU:

resource "google_container_node_pool" "gpu_training_nodes" {    
  ...
  node_config {
    ...
    guest_accelerator {
      type  = "nvidia-tesla-t4"
      count = 1
    }
  }
}

Я смог заставить графические процессоры появляться и работать, доведя все узлы в кластере до одной и той же версии кубернетов. Раньше главный и центральный узлы были на 1.11.6-gke.11. Понятия не имею, как это помогло, но это было единственное изменение, которое я внес. Возможно, при обновлении были сбиты, а затем повторно подготовлены определенные ресурсы, но при этом не нужно было останавливать узлы или что-то столь серьезное, поэтому я не уверен, как это повлияло на разницу ...

Я все еще получаю efivars ошибка, но это не имеет значения (пока).