Я выполняю задания fio на своем твердотельном накопителе NVMe и затем подключаю его к сети. Платформа поддерживает горячую замену, а система - Centos 7.0. Через несколько секунд после моего подключения система выдает сбой и выдает следующую информацию для печати:
================
[1026.468414] {1} [Аппаратная ошибка]: аппаратная ошибка из-за общей аппаратной ошибки APEI. Источник: 1
[1026.468422] pciehp 0000: 5d: 02.0: pcie04: Карта присутствует в слоте (6-1)
[1026.468432] pciehp 0000: 5d: 02.0: pcie04: слот (6-1): событие Link Down
[1026.468451] pciehp 0000: 5d: 02.0: pcie04: событие Link Down поставлено в очередь на слоте (6-1): в настоящее время включается
[1026.468457] pciehp 0000: 5d: 02.0: pcie04: уже включен в слоте (7-1)
[1026.468705] {1} [Ошибка оборудования]: серьезность события: фатальный
[1026.468744] {1} [Ошибка оборудования]: ошибка 0, тип: фатальный
[1026.468782] {1} [Ошибка оборудования]: section_type: ошибка PCIe
[1026.468825] {1} [Ошибка оборудования]: тип_порта: 0, конечная точка PCIe
[1026.468867] {1} [Ошибка оборудования]: версия: 3.0
[1026.468915] {1} [Ошибка оборудования]: команда: 0x0102, статус: 0x4010
[1026.468961] {1} [Аппаратная ошибка]: device_id: 0000: 00: 00.0
[1026.469901] {1} [Ошибка оборудования]: слот: 0
[1026.469032] {1} [Ошибка оборудования]: secondary_bus: 0x00
[1026.469070] {1} [Ошибка оборудования]: vendor_id: 0x1ded, device_id: 0x3010
[1026.469117] {1} [Ошибка оборудования]: код_класса: 008001
[1026.469155] Паника ядра - не синхронизируется: критическая ошибка оборудования!
================
Возможная основная причина сбоя системы заключается в том, что противоречащая пара событий «карта присутствует» и «связь вниз» нарушила системную логику. Что меня смущает, так это то, что pciehp сообщает и о "наличии карты", и о "отсутствии связи" одновременно. По моему опыту, «наличие карты» часто сопровождается «подключением», а «подключение вниз» обычно означает «отсутствие карты».
Может ли кто-нибудь рассказать мне, как происходит эта странная ситуация? Или какой бит в регистре PCIe запускает событие «наличие карты» и событие «отключение связи»?