Назад | Перейти на главную страницу

Datalab вылетает, несмотря на высокую память и процессор

Я использую виртуальную машину GCP Datalab со следующими характеристиками:

n1-highmem-16 (16 vCPUs, 104 GB memory)

Несмотря на наличие значительного объема оперативной памяти, когда я пытаюсь запустить свой обучающий скрипт с набором данных размером 300 МБ, происходит сбой ядра. Код обучает NN, и он отлично проходит этапы обучения, но при оценке на тестовом наборе он дает сбой - никаких ошибок не возникает.

Кто-нибудь знает, почему это так, или как я могу узнать?

РЕДАКТИРОВАТЬ: подсказка, которая появляется при сбое, говорит следующее:

"ядро, похоже, умерло. Он автоматически перезапустится jupyter notebook"

Я добавляю это как комментарий:

Вы уже пробовали это решение [1] последний комментарий?

Хорошая техника, которую стоит попробовать (я помещаю ее в начало любого скрипта, использующего тензорный поток или керас). Это предотвращает ошибку исчерпания ресурсов при условии, что размер партии находится в разумных пределах.

import tensorflow as tf config = tf.ConfigProto () config.gpu_options.allow_growth = True Теперь при создании сеанса передайте ему эту конфигурацию. сесс = tf.Session (config = config)

[1] https://github.com/tensorflow/tensorflow/issues/9829