Назад | Перейти на главную страницу

Машина с 8 GPU зависает

У нас есть сервер SuperMicro GPU с:

Он устанавливается с Ubuntu 16.04.1 LTS, драйвером NVIDA 367.57 и CUDA-8.0. Когда он работает, он временно работает нормально. Однако это совершенно бесполезно со стандартным ядром (v4.4) - система почти сразу зависает, когда делает что-то нетривиальное на любом графическом процессоре. Поэтому мы заподозрили проблему с оборудованием, но с охлаждением все в порядке, и вторая почти идентичная машина (только другой производитель графических процессоров) показывает точно такое же поведение.

Чтобы он работал нормально в течение некоторого времени, вам нужно понизить версию ядра до v3.14.1-trusty (тестировалось почти все версии до этой). Но все же случаются случайные зависания, обычно при отсутствии записей в журналах. Иногда зависает вся машина, иногда просто любые процессы, связанные с графическим процессором.

Похоже, что у других [1] людей [2] есть эта проблема, но решения нет.

Есть ли у кого-нибудь такой же опыт работы с этим типом машин?

Обновить: Кажется, что машины работают стабильно (независимо от какого-либо программного обеспечения), если карты вставлены только с одной стороны расширителя PCI-E, что означает, что все карты управляются одним и тем же процессором. Однако другая машина, похоже, стабильно работает с 8 картами (время безотказной работы около 4 месяцев прямо сейчас) с ядром 3.19 после нескольких месяцев возникновения описанных выше проблем. Странно.

[1] https://devtalk.nvidia.com/default/topic/958927/gpu-job-fail-/

[2] https://devtalk.nvidia.com/default/topic/959699/linux/nvidia-smi-periodically-crashes-system-on-ubuntu-16-04-lts/

У меня была такая же проблема на том же компьютере. Чтобы исправить это, вам необходимо отключить встроенный VGA, изменив перемычку JPG1 на материнской плате. К сожалению, для этого вам придется снять дочернюю плату. Обратите внимание, что для того, чтобы переустановить дочернюю плату, вам может потребоваться немного надавить, чтобы она снова правильно подключилась к материнской плате.

Существует известная проблема с шиной PCI (управление питанием), которую, похоже, решает SuperMicro. Мы только что получили от них прошиваемое обновление прошивки BIOS + и тестируем его. Я не думаю, что смогу поделиться обновлением (не уверен в лицензировании), поэтому посоветовал бы вам связаться с SuperMicro ..