DL180 G6 - ESXI 6.0 - P410 - потерян доступ к тому. Проблема

У нас есть сервер DL180 G6 с картой RAID P410. Сервер имеет следующие три RAID-массива.

4x2 ТБ - RAID 10

4x2 ТБ - RAID 10

2x2 ТБ - RAID 1

Жесткие диски 2x2TB настроены как «горячие» резервы для трех массивов.

Ниже приводится соответствующий вывод ESXCLI.

Smart Array P410 в слоте 1

Bus Interface: PCI
Slot: 1
Serial Number: PACCR9VYJKGQ
Cache Serial Number: PAAVP9VYJCYN
RAID 6 (ADG) Status: Enabled
Controller Status: OK
Hardware Revision: C
Firmware Version: 2.72
Rebuild Priority: Medium
Expand Priority: Medium
Surface Scan Delay: 15 secs
Surface Scan Mode: Idle
Parallel Surface Scan Supported: No
Queue Depth: Automatic
Monitor and Performance Delay: 60  min
Elevator Sort: Enabled
Degraded Performance Optimization: Disabled
Inconsistency Repair Policy: Disabled
Wait for Cache Room: Disabled
Surface Analysis Inconsistency Notification: Disabled
Post Prompt Timeout: 0 secs
Cache Board Present: True
Cache Status: OK
Cache Ratio: 25% Read / 75% Write
Drive Write Cache: Disabled
Total Cache Size: 512 MB
Total Cache Memory Available: 400 MB
No-Battery Write Cache: Disabled
Cache Backup Power Source: Batteries
Battery/Capacitor Count: 1
Battery/Capacitor Status: OK
SATA NCQ Supported: True
Number of Ports: 2 Internal only
Driver Name: HP HPSA
Driver Version: 6.0.0
PCI Address (Domain:Bus:Device.Function): 0000:06:00.0
Host Serial Number: USE626N2XD
Sanitize Erase Supported: False
Primary Boot Volume: None
Secondary Boot Volume: None
Secondary Boot Volume: None

массив A (SATA, неиспользуемое пространство: 0 МБ)

  logicaldrive 1 (3.6 TB, RAID 1+0, OK)

  physicaldrive 1I:1:9 (port 1I:box 1:bay 9, SATA, 2 TB, OK)
  physicaldrive 1I:1:10 (port 1I:box 1:bay 10, SATA, 2 TB, OK)
  physicaldrive 1I:1:11 (port 1I:box 1:bay 11, SATA, 2 TB, OK)
  physicaldrive 1I:1:12 (port 1I:box 1:bay 12, SATA, 2 TB, OK)
  physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare)
  physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare)

массив B (SATA, неиспользуемое пространство: 0 МБ)

  logicaldrive 2 (3.6 TB, RAID 1+0, OK)

  physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SATA, 2 TB, OK)
  physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SATA, 2 TB, OK)
  physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SATA, 2 TB, OK)
  physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SATA, 2 TB, OK)
  physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare)
  physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare)

массив C (SATA, неиспользуемое пространство: 0 МБ)

  logicaldrive 3 (1.8 TB, RAID 1, OK)

  physicaldrive 1I:1:7 (port 1I:box 1:bay 7, SATA, 2 TB, OK)
  physicaldrive 1I:1:8 (port 1I:box 1:bay 8, SATA, 2 TB, OK)
  physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare)
  physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare)

Теперь в ESXI мы время от времени получаем следующие ошибки.

Потерян доступ к тому 5456cb3e-4fbdb59c-a37a- d8d385644ec0 (datastore2) из-за проблем с подключением. Попытка восстановления выполняется

Имейте в виду, что это влияет на все три массива в в то же самое время и через несколько секунд все три массива восстанавливаются. Согласно пониманию, все диски подключены к одному порту на карте RAID P410. Как вы думаете, может ли использование обоих портов улучшить производительность и потенциально устранить эту повторяющуюся проблему?

На данный момент мы испробовали все программные решения, включая обновление прошивки (обновлено до 6.64). Какие еще могут быть варианты?

Обновление 1

Два запасных диска были настроены как запасные для всех трех массивов, как описано выше. Я удалил запчасти со всех массивов минут на 15, и ошибки прекратились. Теперь я настроил первый запасной для первого массива, а второй для второго массива, чтобы увидеть, появится ли ошибка снова.

Обновление 2

Повторное подключение запасных частей привело к возврату ошибки, и это повлияло на все три массива. Поэтому я удаляю запасные части одну за другой для дальнейшего устранения этой проблемы. Вероятно, это известная проблема, описанная здесь: http://community.hpe.com/t5/ProLiant-Servers-ML-DL-SL/ESXi5x-HPSA-P410i-WARNING-LinScsi-SCSILinuxAbortCommands-1843/td-p/6818369. Скрещенные пальцы.

Два обновления, опубликованные в вопросе, и дальнейшее устранение неполадок, приводят нас к настоящему ответу на проблему. Мы выяснили, что это связано с драйвером в ESXI для рейдовой карты P410. Мы перешли на версию .60 драйвера, доступного с http://h20564.www2.hpe.com/hpsc/swd/public/detail?swItemId=MTX_d18033ac346f468c92062ce127 и проблема была решена.

Имейте в виду, что ни один из последних драйверов не работает, включая версии .114, .116 и недавно выпущенный .118. Таким образом, это единственное программное решение проблемы, если ваша проблема не связана с оборудованием, как описано пользователем @ewwhite.

Помните, что эта проблема возникает только в том случае, если вы используете запасные диски с картой P410 на сервере DL180G6. Я также видел сообщения о том, что это происходит и с другими серверами HP, поэтому вы можете попробовать версию драйвера .60 на этом сервере, чтобы увидеть, решит ли она вашу проблему.

Столкнувшись с этой проблемой, вы также можете наблюдать периодические всплески задержки диска без какой-либо соответствующей нагрузки чтения / записи на вашем сервере, это лучше объясняется следующим изображением:

На приведенном выше рисунке красные точки обозначают периодические всплески, когда был установлен запасной. Зеленые точки обозначают период, когда запасная часть была удалена.

Как вы можете видеть на картинке выше, всплески задержки не были связаны с соответствующими нагрузками чтения / записи и были периодическими. В нашем случае это происходило с разницей в пять минут. Как только запаска была снята, шипы остановились.

Чтобы перейти на версию драйвера .60, переведите компьютер в режим обслуживания после корректного выключения виртуальных машин и выполните следующие команды

cd /tmp
wget http://ftp.hp.com/pub/softlib2/software1/pubsw-linux/p964549618/v97400/scsi-hpsa-5.5.0.60-1OEM.550.0.0.1331820.x86_64.vib
esxcli software vib install -v /tmp/scsi-hpsa-5.5.0.60-1OEM.550.0.0.1331820.x86_64.vib

После этого перезагрузите сервер. Надеюсь, это кому-то поможет. Я обновлю этот ответ, когда HP выпустит стабильную версию драйвера HPSA для P410, которая не вызывает этой проблемы с запасными дисками.

Вероятно, это проблема объединительной платы или расширителя объединительной платы. Есть небольшая вероятность, что это может быть кабель. И возможно RAID-контроллер.

DL180 G6, который вы используете, вероятно, представляет собой 3,5-дюймовое устройство с 12 отсеками и подключается к Smart Array P410 с помощью одного 4-полосного кабеля SAS SFF-8087.

Обновление прошивки было первым делом, которое вы должны были сделать. Была ли у вас такая же проблема после обновления прошивки контроллера? Вы можете также сделать прошивку дисков для хорошей меры.

Но видя, что конструкция этого сервера полностью зависит от объединительной платы SAS и того факта, что все диски задействованы одновременно, вы сталкиваетесь с проблемой подключения, которая, вероятно, потребует обслуживания или замены.