Назад | Перейти на главную страницу

ZFS (Solaris 11) - контроллер SAS умер и был заменен - ​​пул приостановлен

(Обратите внимание, что я исправлю статус zpool для ясности, когда вернусь на сервер)

У меня есть дисковый пул raidz2 ZFS размером 6x2 ТБ, который я размещаю в Solaris 11

Мой исходный M1015 (переведенный в режим IT), установленный 2 года назад, когда я построил этот сервер, вышел из строя и больше не распознавался на шине PCI-E. Вчера заменил его на другой M1015 (перепрошил в IT-режим), и Solaris снова нашел все диски.

Однако пул ZFS был переведен в режим SUSPENDED (вероятно, из-за того, что предыдущий M1015 умирает во время работы, и все диски исчезали до этого), и я вижу, что восстановление происходит на 2 дисках (??), причем все диски указаны как недоступные.

Я не сомневаюсь, что в пуле есть ошибки. Но я устранил (отремонтировал fmadm и очистил zpool) ошибки в надежде, что пул может быть перемонтирован в деградированном состоянии. Однако после перезагрузки пул сначала отображается как DEGRADED (некоторые диски отображаются как недоступные, некоторые как degraded), затем происходит немедленный переход в SUSPENDED, когда все диски отображаются как недоступные, и запускается повторное обновление.

Скорость переноса данных начинается примерно со 100 Мбит / с и быстро снижается до 50 Кбит / с или менее. Это соответствует нескольким сотням часов ожидаемого времени восстановления. Более того, iostat показывает НУЛЕВЫЕ транзакции, происходящие на любом из дисков в пуле. Кажется, что все транзакции происходят в пике вскоре после перезагрузки, так как я могу видеть около + 1 ГБ сканированного прогресса после последовательных перезагрузок.

У меня нет возможности отключить какой-либо из дисков или экспортировать пул, пока он находится в приостановленном состоянии (также я не знаю, почему он переходит в приостановленное состояние, когда все записи «fmadm faulty» сообщаются как исправленные)

Где я ошибся при замене контроллера SAS и как мне восстановить?


$ zpool status
  pool: rpool
 state: ONLINE
  scan: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        rpool       ONLINE       0     0     0
          c8t0d0s1  ONLINE       0     0     0

errors: No known data errors

  pool: tank
 state: SUSPENDED
status: One or more devices is currently being resilvered.  The pool will
        continue to function in a degraded state.
action: Wait for the resilver to complete.
  scan: resilver in progress since Thu Apr 16 19:37:54 2015
    14.7G scanned out of 8.71T at 127K/s, (scan is slow, no estimated time)
    1.23G resilvered, 0.17% done
config:

        NAME                       STATE     READ WRITE CKSUM
        tank                       UNAVAIL      0     0     0
          raidz2-0                 UNAVAIL      0     0     0
            c0t5000C5005E169C55d0  UNAVAIL      0     0     0
            c0t5000C5005C08BE07d0  UNAVAIL      0     0     0
            c0t5000C5005C07780Ad0  UNAVAIL      0     0     0
            c0t5000C5005E21AE92d0  UNAVAIL      0     0     0  (resilvering)
            c0t5000C5005E0C5056d0  UNAVAIL      0     0     0
            c0t5000C5005C04F982d0  UNAVAIL      0     0     0  (resilvering)

device details:

        c0t5000C5005E169C55d0    UNAVAIL          experienced I/O failures
        status: FMA has faulted this device.
        action: Run 'fmadm faulty' for more information. Clear the errors
                using 'fmadm repaired'.

        c0t5000C5005C08BE07d0    UNAVAIL          experienced I/O failures
        status: FMA has degraded this device.
        action: Run 'fmadm faulty' for more information. Clear the errors
                using 'fmadm repaired'.
           see: http://support.oracle.com/msg/ZFS-8000-GH for recovery

        c0t5000C5005C07780Ad0    UNAVAIL          experienced I/O failures
        status: FMA has faulted this device.
        action: Run 'fmadm faulty' for more information. Clear the errors
                using 'fmadm repaired'.

        c0t5000C5005E21AE92d0    UNAVAIL          experienced I/O failures
        status: FMA has degraded this device.
        action: Run 'fmadm faulty' for more information. Clear the errors
                using 'fmadm repaired'.

        c0t5000C5005E0C5056d0    UNAVAIL          experienced I/O failures
        status: FMA has faulted this device.
        action: Run 'fmadm faulty' for more information. Clear the errors
                using 'fmadm repaired'.

        c0t5000C5005C04F982d0    UNAVAIL          experienced I/O failures
        status: FMA has degraded this device.
        action: Run 'fmadm faulty' for more information. Clear the errors
                using 'fmadm repaired'.
           see: http://support.oracle.com/msg/ZFS-8000-LR for recovery
$ iostat -en
  ---- errors ---
  s/w h/w trn tot device
    0   0   0   0 c8t0d0
    0  11   0  11 c7t0d0
    0   0   0   0 c0t5000C5005E0C5056d0
    0   0   0   0 c0t5000C5005E169C55d0
    0   0   0   0 c0t5000C5005C08BE07d0
    0   0   0   0 c0t5000C5005E21AE92d0
    0   0   0   0 c0t5000C5005C07780Ad0
    0   0   0   0 c0t5000C5005C04F982d0