Назад | Перейти на главную страницу

На GCE внезапный дисковый ввод-вывод и SSH больше не может

Я долго работал над GCE с GPU. Это не исключительный случай.

Я отслеживал задание на локальном терминале с SSH и TMUX на экземпляре, поэтому оно продолжало работать, если соединение SSH разорвалось. Экран завис, поэтому я попытался подключиться к SSH из другого окна терминала, но SSH также завис.

Я зашел в облачную консоль Google, чтобы попытаться увидеть, что происходит, и там много операций чтения с диска:

Я почти уверен, что ничто из того, что я сделал, не привело к чтению с диска.

Есть идеи, что происходит? Я надеюсь, что моя работа все еще выполняется, и я не хочу начинать заново, поэтому я бы предпочел не останавливать и перезапускать свой экземпляр.

Я думаю, что Уомбл прав в том, что это проблема памяти и подкачки.

Когда экземпляр работал, я подключился по SSH и выполнил небольшую быструю работу, и я думаю, что это привело к чрезмерным требованиям к памяти. Это состояние длилось несколько часов, поэтому я остановил и перезапустил экземпляр.

Когда я начал работу с нуля, проблема повторилась снова. Раньше работа выполнялась, поэтому я собираюсь полностью стереть этот экземпляр и создать новый с нуля и надеюсь, что он снова заработает.

Не могу увеличить память, потому что уже использую макс.