При добавлении новых узлов пула с графическим процессором Google Kubernetes Engine не может планировать вновь созданные поды, которые требуют графического процессора на этих новых узлах, должно быть автоматическим, но не для ресурсов графического процессора, я думаю, новые поды остаются в состоянии ожидания навсегда, как это исправить ?
РЕДАКТИРОВАТЬ: вот файл yaml развертывания, я не стремлюсь привязывать развертывание к определенному узлу:
---
apiVersion: machinelearning.seldon.io/v1alpha2
kind: SldDeployment
metadata:
labels:
app: sld
name: trs-sld
namespace: trs
spec:
annotations:
project_name: Trs
deployment_version: v1.0
seldon.io/rest-connect-retries: '5'
seldon.io/grpc-connect-retries: '5'
seldon.io/istio-retries: '10'
seldon.io/istio-retries-timeout: '12'
name: trs
predictors:
- componentSpecs:
- spec:
containers:
- image: eu.gcr.io/trs-141513/trs-native:latest
imagePullPolicy: Always
name: classifier
resources:
limits:
nvidia.com/gpu: 2
volumeMounts:
- mountPath: /etc/google_storage/creds
name: service-account-creds
readOnly: true
volumes:
- name: service-account-creds
secret:
secretName: service-account-creds
terminationGracePeriodSeconds: 20
graph:
children: []
name: classifier
endpoint:
type: REST
type: MODEL
name: model
replicas: 1
annotations:
predictor_version: v1.0
---
Оказывается, вам нужно устанавливать драйверы графического процессора каждый раз, когда добавляется новый узел, например, для контейнеров Ubuntu:
kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/ubuntu/daemonset-preloaded.yaml