Я использую виртуальную машину GCP Datalab со следующими характеристиками:
n1-highmem-16 (16 vCPUs, 104 GB memory)
Несмотря на наличие значительного объема оперативной памяти, когда я пытаюсь запустить свой обучающий скрипт с набором данных размером 300 МБ, происходит сбой ядра. Код обучает NN, и он отлично проходит этапы обучения, но при оценке на тестовом наборе он дает сбой - никаких ошибок не возникает.
Кто-нибудь знает, почему это так, или как я могу узнать?
РЕДАКТИРОВАТЬ: подсказка, которая появляется при сбое, говорит следующее:
"ядро, похоже, умерло. Он автоматически перезапустится jupyter notebook"
Я добавляю это как комментарий:
Вы уже пробовали это решение [1] последний комментарий?
Хорошая техника, которую стоит попробовать (я помещаю ее в начало любого скрипта, использующего тензорный поток или керас). Это предотвращает ошибку исчерпания ресурсов при условии, что размер партии находится в разумных пределах.