В настоящее время мы запускаем интерактивное приложение HPC, которое представляет графический интерфейс для пользователя, подключается к кластеру HPC и позволяет им запускать и наблюдать за некоторыми вычислениями. Пользователь входит в интерфейсный узел через NoMachine NX Server (этот компьютер не участвует в вычислениях). Обычно он устанавливает свою проблему, выполняет несколько крошечных пробных запусков, а затем начинает большую работу. После этого он отключается от сеанса NX, ожидая продолжения вычислений.
Но это не так. Кажется, что все выполнение в сеансе NX и в кластере приостанавливается, когда пользователь отключается. Если он возобновляет сеанс, он может возобновить вычисления, но это задание, которое он ожидает выполнять в течение нескольких дней, поэтому ожидать наличия подключенного сеанса NX на протяжении всего сеанса может оказаться невозможным.
Мы знаем, что во многих случаях правильным вариантом использования будет определение пользователем своих параметров, а затем отправка пакетного (неинтерактивного) задания через ssh, но он настоятельно предпочитает рабочий процесс, который я описал выше, поэтому мы пытаюсь заставить его работать.