Назад | Перейти на главную страницу

диски nexenta и hotswap sas. cfgadm не работает должным образом

Возникла проблема с оперативно заменяемыми дисками SAS.

Исходные данные: Nexenta 4.0.2 Server-based Supermicro (MB S5520HC, внутренний RAID-контроллер RMS2LL080 / LSI 2008), 12 HDD SAS 300G, 10 HDD SATA 1T, 2 SSD 160G.

Диски разделены на три пула:

В какой-то момент вышли из строя два диска SAS:

NAME                         STATE     READ WRITE CKSUM
        sas                          DEGRADED     0     0     0
          raidz1-0                   DEGRADED     0     0     0
            c1t5000C50007DCF821d0    ONLINE       0     0     0
            c1t5000CCA0052FFDD5d0    ONLINE       0     0     0
            c1t5000CCA005349D15d0    ONLINE       0     0     0
            spare-3                  FAULTED      0     0     0
              c1t5000CCA00534D625d0  FAULTED      0     0     0  external device fault
              c1t5000CCA0053658B5d0  ONLINE       0     0     0
            c1t5000CCA00534F2D5d0    ONLINE       0     0     0
            c1t5000CCA00534F33Dd0    ONLINE       0     0     0
            c1t5000CCA00534F471d0    ONLINE       0     0     0
            c1t5000CCA0053571D1d0    ONLINE       0     0     0
            c1t5000CCA00535A3A5d0    ONLINE       0     0     0
        logs
          c0t500151795950C847d0      ONLINE       0     0     0
        spares
          c1t5000CCA0053658B5d0      INUSE     currently in use



  pool: syspool
 state: DEGRADED
status: One or more devices are faulted in response to persistent errors.
        Sufficient replicas exist for the pool to continue functioning in a
        degraded state.
action: Replace the faulted device, or use 'zpool clear' to mark the device
        repaired.
  scan: scrub repaired 0 in 0h3m with 0 errors on Sun Oct  4 03:03:56 2015
config:

        NAME                         STATE     READ WRITE CKSUM
        syspool                      DEGRADED     0     0     0
          mirror-0                   DEGRADED     0     0     0
            c1t5000C500072BB235d0s0  FAULTED      1    20     0  external device fault
            c1t5000C500072BE655d0s0  ONLINE       0     0     0

Затем выполните процедуру замены zpool offline / detach и cfgadm -c деконфигурировать для каждого диска. После установки одного диска (в данном случае syspool) в логах можно увидеть следующее:

Oct  9 18:28:43 nxstor genunix: [ID 408114 kern.info] /pci@0,0/pci8086,3a40@1c/pci8086,350e@0/iport@ff/disk@w5000c50007dcf7ed,0 (sd26) online
Oct  9 18:28:43 nxstor pcplusmp: [ID 805372 kern.info] pcplusmp: pci-ide (pci-ide) instance 0 irq 0x12 vector 0x41 ioapic 0x8 intin 0x12 is bound to cpu 14
Oct  9 18:28:43 nxstor pcplusmp: [ID 805372 kern.info] pcplusmp: pci-ide (pci-ide) instance 1 irq 0x15 vector 0x42 ioapic 0x8 intin 0x15 is bound to cpu 15
Oct  9 18:28:43 nxstor pcplusmp: [ID 805372 kern.info] pcplusmp: pci-ide (pci-ide) instance 0 irq 0x12 vector 0x41 ioapic 0x8 intin 0x12 is bound to cpu 0
Oct  9 18:28:43 nxstor pcplusmp: [ID 805372 kern.info] pcplusmp: pci-ide (pci-ide) instance 1 irq 0x15 vector 0x41 ioapic 0x8 intin 0x15 is bound to cpu 1
Oct  9 18:39:53 nxstor genunix: [ID 888150 kern.warning] WARNING: Device not found in device tree. Skipping device unretire: /pci@0,0/pci8086,3a40@1c/pci8086,350e@0/iport@ff/disk@w5000c500072bb235,0
Oct  9 18:39:53 nxstor genunix: [ID 484473 kern.notice] NOTICE: Not retired: /pci@0,0/pci8086,3a40@1c/pci8086,350e@0/iport@ff/disk@w5000c500072bb235,0
Oct  9 18:39:53 nxstor genunix: [ID 888150 kern.warning] WARNING: Device not found in device tree. Skipping device unretire: /pci@0,0/pci8086,3a40@1c/pci8086,350e@0/iport@ff/disk@w5000cca00534d625,0

Диски и диск @ w5000cca00534d625,0 disk @ w5000c500072bb235,0 - это два проблемных диска, которые были удалены из системы.

Установленный HDD определил cfgadm:

root@nxstor:/volumes# cfgadm -al
Ap_Id                          Type         Receptacle   Occupant     Condition
Slot2                          sas/hp       connected    configured   ok
c1                             scsi-sas     connected    configured   unknown
c1::dsk/c1t5000C50007DCF7EDd0  disk         connected    configured   unknown
<cut>

Однако в этом формате диска утилита fdisk тоже не отображается:

root@nxstor:/volumes# fdisk /dev/rdsk/c1t5000C50007DCF7EDd0
fdisk: Cannot stat device /dev/rdsk/c1t5000C50007DCF7EDd0.
root@nxstor:/volumes# 
root@nxstor:/volumes# ls -la /dev/rdsk/c1t5000C50007DCF7EDd0
/dev/rdsk/c1t5000C50007DCF7EDd0: No such file or directory

Более того, NMS видят следующее:

Trigger Name: nms-fmacheck
           Fault ID: 5
 Error Repeat Count: 5
     Error Severity: CRITICAL
    Error TimeStamp: Tue Oct 13 14:21:54 2015

Description:
FMA Module: ereport.io.scsi.disk.attach-failure

Details:

List of last errors :
Oct 13 13:48:02.6970 ereport.io.scsi.cmd.disk.tran   
<cut>  
Oct 13 14:21:05.7075 ereport.io.scsi.cmd.disk.tran   
Oct 13 14:21:53.6196 ereport.io.scsi.cmd.disk.dev.rqs.derr
Oct 13 14:21:53.6197 ereport.io.scsi.disk.attach-failure

List of last errors :
=========: Event Details :========
SOURCE: ereport.io.scsi.disk.attach-failure
nvlist version: 0
    class = ereport.io.scsi.disk.attach-failure
    ena = 0x58420a3d24100401
    detector = (embedded nvlist)
    nvlist version: 0
        version = 0x0
        scheme = dev
        device-path = /pci@0,0/pci8086,3a40@1c/pci8086,350e@0/iport@ff/disk@w5000c50007dcf7ed,0
        devid = id1,sd@n5000c50007dcf7ef
    (end detector)

    devid = id1,sd@n5000c50007dcf7ef
    __ttl = 0x1
    __tod = 0x561cdb41 0x24f05942

=========

Если предположить, что новый привод тоже неисправен и поставить другие, то картина будет еще более странной. Диск установки логов вообще не появляется. Но при изъятии диска отображается информация:

Oct 13 14:50:26 nxstor scsi: [ID 107833 kern.notice] /pci@0,0/pci8086,3a40@1c/pci8086,350e@0 (mpt_sas0):
Oct 13 14:50:26 nxstor   PhysDiskNum 2 with DevHandle 0x23 in slot 0 for enclosure with handle 0x0 is now offline

Опытным путем было обнаружено, что проблема касается только дисков SAS. Это, в свою очередь, наводит на мысль о проблеме в cfgadm с драйвером MPxIO и mpt_sas (оказывается, это известная проблема solaris и написано, что она решена, но неясно, передается ли она в opensolaris).

Что делать дальше? Кто нибудь сталкивался с подобной проблемой?

Драйверы и фирменный контроллер SAS: MPTSAS HBA Driver 00.00.00.24 версия прошивки 5.40.1.0 SAS диски двух видов: Hitachi Ultrastar 15K300 HUS153030VLS300 и Seagate Cheetah 15K.5 ST3300655SS.