Назад | Перейти на главную страницу

Сбой хоста DELL ESXI - Как определить неисправное оборудование

У меня есть хост ESXI, который несколько раз падал из-за проблем с оборудованием. Каждый раз в логах вижу:

A bus fatal error was detected on a component at bus 64 device 2 function 0.
A bus fatal error was detected on a component at slot 4.

На консоли я вижу

64 в двоичном формате - это 40 в шестнадцатеричном формате. Если я сделаю:

[root@localhost:~] lspci | grep 0000:40:02.0
0000:40:02.0 Bridge: Intel Corporation Xeon E7 v2/Xeon E5 v2/Core i7 PCI 
Express Root Port 2a [PCIe RP[0000:40:02.0]]
[root@localhost:~] 

При выполнении:

esxcfg-info

и ища СЛОТ 4, я получаю:

        \==+PCI Device : 
           |----Segment.........................................0x0000 
           |----Bus.............................................0x40 
           |----Slot............................................0x02 
           |----Function........................................0x00 
           |----Runtime Owner...................................vmkernel
           |----Has Configured Owner............................false
           |----Configured Owner................................
           |----Vendor Id.......................................0x8086 
           |----Device Id.......................................0x0e04 
           |----Sub-Vendor Id...................................0x0000 
           |----Sub-Device Id...................................0x0000 
           |----Vendor Name.....................................Intel Corporation
           |----Device Name.....................................Xeon E7 v2/Xeon E5 v2/Core i7 PCI Express Root Port 2a
           |----Device Class....................................1540 
           |----Device Class Name...............................PCI bridge
           |----PIC Line........................................15 
           |----Old IRQ.........................................255 
           |----Vector..........................................0 
           |----PCI Pin.........................................0 
           |----Spawned Bus.....................................66 
           |----Flags...........................................12803 
           \==+BAR Info : 
              \==+BAR0 : 
                 |----Type......................................0 
                 |----Address...................................0 
                 |----Size......................................0 
                 |----Flags.....................................0 
              \==+BAR1 : 
                 |----Type......................................0 
                 |----Address...................................0 
                 |----Size......................................0 
                 |----Flags.....................................0 
           |----Module Id.......................................0 
           |----Chassis.........................................0 
           |----Physical Slot...................................4294967295 
           |----VmKernel Device Name............................PCIe RP[0000:40:02.0]
           |----Slot Description................................SLOT 4
           |----Passthru Capable................................false
           |----Parent Device...................................
           |----Dependent Device................................
           |----Reset Method....................................5
           |----FPT Shareable...................................true

Значит ли это, что CPU едет?

IDrac не показывает никаких проблем с HW? Возможно, вам стоит запустить полную диагностику на экране загрузки.

Если я правильно помню:

Нажмите F10 при запуске. На левой панели Lifecycle Controller щелкните «Диагностика оборудования». На правой панели щелкните Запустить диагностику оборудования. Утилита диагностики запускается.