Я долго работал над GCE с GPU. Это не исключительный случай.
Я отслеживал задание на локальном терминале с SSH и TMUX на экземпляре, поэтому оно продолжало работать, если соединение SSH разорвалось. Экран завис, поэтому я попытался подключиться к SSH из другого окна терминала, но SSH также завис.
Я зашел в облачную консоль Google, чтобы попытаться увидеть, что происходит, и там много операций чтения с диска:
Я почти уверен, что ничто из того, что я сделал, не привело к чтению с диска.
Есть идеи, что происходит? Я надеюсь, что моя работа все еще выполняется, и я не хочу начинать заново, поэтому я бы предпочел не останавливать и перезапускать свой экземпляр.
Я думаю, что Уомбл прав в том, что это проблема памяти и подкачки.
Когда экземпляр работал, я подключился по SSH и выполнил небольшую быструю работу, и я думаю, что это привело к чрезмерным требованиям к памяти. Это состояние длилось несколько часов, поэтому я остановил и перезапустил экземпляр.
Когда я начал работу с нуля, проблема повторилась снова. Раньше работа выполнялась, поэтому я собираюсь полностью стереть этот экземпляр и создать новый с нуля и надеюсь, что он снова заработает.
Не могу увеличить память, потому что уже использую макс.