Назад | Перейти на главную страницу

ZFS - влияние сбоя устройства кэш-памяти L2ARC (Nexenta)

у меня есть Сервер HP ProLiant DL380 G7, работающий как устройство хранения NexentaStor. Сервер имеет 36 ГБ ОЗУ, 2 контроллера LSI 9211-8i SAS (без расширителей SAS), 2 системных диска SAS, 12 дисков данных SAS, диск горячего резервирования, кэш Intel X25-M L2ARC и ускоритель DDRdrive PCI ZIL. Эта система обслуживает NFS для нескольких хостов VMWare. У меня также есть около 90-100 ГБ дедуплицированных данных в массиве.

У меня было два инцидента, когда производительность внезапно падала, в результате чего гостевые виртуальные машины и консоли Nexenta SSH / Web были недоступны и требовалась полная перезагрузка массива для восстановления работоспособности. В обоих случаях отказал или был отключен SSD Intel X-25M L2ARC. NexentaStor не смог предупредить меня о сбое кеша, однако общее предупреждение ZFS FMA было видно на (не отвечающем) экране консоли.

В zpool status вывод показал:

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

Это не вызвало никаких предупреждений из Nexenta.

У меня создалось впечатление, что отказ L2ARC не повлияет на систему. Но в данном случае виноват наверняка. Никогда не видел рекомендаций по RAID L2ARC. Полное удаление неисправного SSD с сервера заставило меня снова работать, но меня беспокоит влияние сбоя устройства (и, возможно, отсутствие уведомления от NexentaStor).

редактировать - Какой сейчас лучший выбор SSD для приложений кеширования L2ARC в наши дни?

ZFS не выполняет дисковый ввод-вывод, драйверы устройств ниже ZFS выполняют дисковый ввод-вывод. Если устройство не отвечает своевременно или, как в этом случае, нарушает работу всех других устройств на расширителе, то это не отображается как сбой для ZFS. ZFS видит только медленный ввод-вывод.

В прошивке Intel X-25M есть ошибка, которая влияет на их поведение при больших нагрузках и может вызвать шторм сброса. Эта проблема затрагивает все ОС и не может быть решена на уровне ОС. Обратитесь к поставщику оборудования для исправлений или исправлений.

Если ожидается, что чтение будет выполнено L2ARC, то попытка чтения будет предпринята там. Затем ZFS использует драйверы нижнего уровня для сообщения об ошибке. В этом случае диск продолжает сбрасывать и повторять попытки в течение 5 минут, прежде чем объявляет ввод-вывод как сбойный, в зависимости от драйвера, устройства и настроек тайм-аута по умолчанию. Только после того, как драйверы нижнего уровня объявят ввод-вывод как сбойный, ZFS выполнит повторную попытку в пуле.

Программы проверки громкости и диска NexentaStor ищут дополнительные сообщения об ошибках и предупреждают вас по электронной почте и регистрируют ошибки. Средство проверки диска было улучшено в версии 3.1, чтобы помочь вам предупредить вас о конкретных условиях, возникающих при неисправной прошивке в SSD.

Итог: ваше оборудование неисправно и его необходимо отремонтировать или заменить.

Вы подключаете X25-M SSD к объединительной плате? Есть известная проблема с Nexenta и доступом к L2ARC через объединительную плату. Лучше всего подключить SSD непосредственно к порту SATA на материнской плате. Убедитесь, что он также настроен на использование AHCI.

Если вы используете что-то критически важное на этом сервере, я бы переключился на SSD SLC (например, X25-E или STEC SSD). При этом вы, вероятно, будете в порядке с X25-M, если это не так.

Эд, есть несколько, которые вы можете использовать, от относительно умеренных по цене до чертовски дорогих. Я предпочитаю использовать твердотельные накопители SAS во всех случаях, и у меня все хорошо работает как с STEC, так и с Pliant. Оба теперь предлагают накопитель MLC, который, как известно, имеет устройство L2ARC. Еще не тестировалось, но скоро появится предложение SSD от Seagate, которое называется SLC SAS 2.0 и, по слухам, «недорогое». Быть в курсе....

-PB