Назад | Перейти на главную страницу

GKE не может планировать вновь созданные поды, требующие GPU, на вновь добавленных узлах с GPU.

При добавлении новых узлов пула с графическим процессором Google Kubernetes Engine не может планировать вновь созданные поды, которые требуют графического процессора на этих новых узлах, должно быть автоматическим, но не для ресурсов графического процессора, я думаю, новые поды остаются в состоянии ожидания навсегда, как это исправить ?

РЕДАКТИРОВАТЬ: вот файл yaml развертывания, я не стремлюсь привязывать развертывание к определенному узлу:

    ---
    apiVersion: machinelearning.seldon.io/v1alpha2
    kind: SldDeployment
    metadata:
      labels:
        app: sld
      name: trs-sld
      namespace: trs
    spec:
      annotations:
        project_name: Trs
        deployment_version: v1.0
        seldon.io/rest-connect-retries: '5'
        seldon.io/grpc-connect-retries: '5'
        seldon.io/istio-retries: '10' 
        seldon.io/istio-retries-timeout: '12' 
      name: trs
      predictors:
      - componentSpecs:
        - spec:
            containers:
            - image: eu.gcr.io/trs-141513/trs-native:latest
              imagePullPolicy: Always
              name: classifier
              resources:
                limits:
                  nvidia.com/gpu: 2
              volumeMounts:
                - mountPath: /etc/google_storage/creds
                  name: service-account-creds
                  readOnly: true
            volumes:
              - name: service-account-creds
                secret:
                  secretName: service-account-creds
            terminationGracePeriodSeconds: 20
        graph:
          children: []
          name: classifier
          endpoint:
            type: REST
          type: MODEL
        name: model
        replicas: 1
        annotations:
          predictor_version: v1.0
    ---

Оказывается, вам нужно устанавливать драйверы графического процессора каждый раз, когда добавляется новый узел, например, для контейнеров Ubuntu:

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/ubuntu/daemonset-preloaded.yaml