Samsung NVMe исчезает при средней или высокой нагрузке сервера

Привет сообществу!

Позвольте мне подробнее остановиться на самой проблеме.

У нас всего 6 серверов SuperMicro в кластере. Проблема возникает только в 3-х, новейшего поколения.

То же самое произошло на всех трех узлах (разное время, в тот же день). Я очень сомневаюсь, что это может быть реальная проблема с оборудованием, хотя я не исключаю ее как причину.

Описание проблемы и возникновение: на первый взгляд случайное (пока только соединение, которое кажется, что они находятся под средней или высокой нагрузкой, когда это происходит). Как это выглядит - внезапно пропадает одно nvme до перезапуска сервера. Если мы не перезапускаемся - наблюдается сильное отставание всего кластера. Решение 2 для отставания - опустите узел блеска поврежденной машины.

В журнале kern.log вы можете найти сначала сообщения об отказе nvme, а затем множество сообщений о мягкой блокировке: Сторожевой таймер NMI: ОШИБКА: мягкая блокировка - ЦП №7 зависает на 22 секунды!. Почему-то очень много ошибок связано и с драйвером i40e.

подробный kern.log (Call Trace) (отфильтровал часть содержимого. При необходимости я могу предоставить еще более подробный): https://pastebin.com/raw/YDPBSY9R

Ошибка записана в журнал событий IPMI (на всех трех серверах): Критическое прерывание, PCI PERR @ Bus16 (Dev0, Func0) - Утверждение

«Неудачные»:

Supermicro Super Server / X11SDV-16C-TP8F; Intel (R) Xeon (R) D-2183IT - узел 1
Supermicro Super Server / X11SDV-16C-TP8F; Intel (R) Xeon (R) D-2183IT - узел 2
Supermicro Super Server / X11SDV-8C-TP8F; Intel (R) Xeon (R) D-2146NT - узел 3
Все с одинаковым NVMe на PCIe - SAMSUNG MZ1LB3T8HMLA-00007 - 4 ТБ
все машины работают под управлением Debian9
узел 1 - (который в настоящее время свободен от каких-либо виртуальных машин) - 4.9.0-11-amd64 # 1 SMP Debian 4.9.189-3
узел 2 и 3 - ядро 4.9.0-12-amd64 # 1 SMP Debian 4.9.210-1
все они работают под управлением xen-hypervisor-4.8.5, drbd, gluster.

В настоящее время резервным узлом является узел 1 - на нем нет работающих виртуальных машин, но есть все ресурсы из узел 2 и 3, на случай, если кто-то из них умрет на нас.

Некоторые ошибки из дампа:

[810899.851097] nvme 0000:1c:00.0: Failed status: 0xffffffff, reset controller.

[810972.208480] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 0
[810972.208482]  [<ffffffff81513fe6>] ? net_rx_action+0x246/0x380
[810972.208485] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
[810972.208488]  [<ffffffff81621ead>] ? __do_softirq+0x10d/0x2b0
[810972.208489] {1}[Hardware Error]: event severity: corrected
[810972.208492]  [<ffffffff81081fa2>] ? irq_exit+0xc2/0xd0
[810972.208496] {1}[Hardware Error]:  Error 0, type: corrected
[810972.208499]  [<ffffffff814152c1>] ? xen_evtchn_do_upcall+0x31/0x50
[810972.208502] {1}[Hardware Error]:   section_type: PCIe error
[810972.208504]  [<ffffffff8161f1de>] ? xen_do_hypervisor_callback+0x1e/0x40
[810972.208507] {1}[Hardware Error]:   port_type: 4, root port
[810972.208510]  <EOI> 
[810972.208510] {1}[Hardware Error]:   version: 3.0
[810972.208512]  [<ffffffff810013aa>] ? xen_hypercall_sched_op+0xa/0x20
[810972.208515] {1}[Hardware Error]:   command: 0x0547, status: 0x4010
[810972.208518]  [<ffffffff810013aa>] ? xen_hypercall_sched_op+0xa/0x20
[810972.208521] {1}[Hardware Error]:   device_id: 0000:16:00.0
[810972.208523]  [<ffffffff8101be5c>] ? xen_safe_halt+0xc/0x20
[810972.208525] {1}[Hardware Error]:   slot: 0
[810972.208527]  [<ffffffff8161d74a>] ? default_idle+0x1a/0xd0
[810972.208529] {1}[Hardware Error]:   secondary_bus: 0x17
[810972.208533]  [<ffffffff810bf57a>] ? cpu_startup_entry+0x1ca/0x240
[810972.208536] {1}[Hardware Error]:   vendor_id: 0x8086, device_id: 0x2030
[810972.208537] Task dump for CPU 10:
[810972.208539] {1}[Hardware Error]:   class_code: 060400
[810972.208543] ksoftirqd/10    R
[810972.208543] {1}[Hardware Error]:   bridge: secondary_status: 0x2000, control: 0x0013

[811176.155839] i40e 0000:b7:00.1: Error I40E_AQ_RC_EINVAL adding RX filters on PF, promiscuous mode
[811177.445098] nvme 0000:1c:00.0: Refused to change power state, currently in D3
[811178.748864] xen: registering gsi 38 triggering 0 polarity 1
[811178.748889] Already setup the GSI :38

Исследование проблемы привело меня к некоторым старым потокам в панели запуска и askubuntu, но я не уверен, что они охватывают наш точный сценарий:

Что сделано на данный момент:

Мы добавили GRUB_CMDLINE_LINUX_DEFAULT = "quiet pcie_aspm = off" в узел 1 и 3
Одновременно перемещены все рабочие ВМ от узла 1 (pcie_aspm = выкл.)

Пока у нас есть рабочая среда в течение 2 дней подряд без зависаний или отсутствия nvmes, но мы неспособный выяснить, в чем проблема.
Помните, что узел 2 делает не выключить pcie_aspm, в настоящее время нагрузка средняя, и на них работает больше, чем обычно, виртуальных машин (поскольку они были разделены между узел 2 и 3 с 1)

У меня такое странное ощущение, что как-то полностью разгрузка узел 1 связано с нашим временным успехом, но не может найти для него реальной причины. К этому моменту мы уже несколько дней бьемся головами и как бы «заблокированы» на этом.

Нам нужна помощь или мнения. Это стало нелепо. Дайте мне знать, если вам понадобится дополнительная информация.

Ваша помощь очень ценится! Спасибо!