Я работаю с двумя шасси Supermicro SC837E26-RJBOD1, подключенными к одной карте LSI 9285-8e в хосте Supermicro 1U. В каждом шасси имеется 28 дисков, всего 56 дисков в 28 зеркалах RAID1.
Проблема, с которой я столкнулся, заключается в том, что есть повторяющиеся слоты для 2 шасси (список слотов дважды и только от 0 до 27). Все диски также имеют одинаковый идентификатор корпуса (ID 36). Однако MegaCLI -encinfo правильно перечисляет 2 корпуса (ID 36 и ID 65).
У меня вопрос, почему это произошло? Есть ли вариант, который мне не хватает, чтобы эффективно использовать 2 корпуса?
Это мешает мне восстановить диск, который вышел из строя в слоте 11, поскольку я могу указать только корпус и слот в качестве параметров для замены диска. Когда я это делаю, он выбирает неправильный слот 11 (идентификатор устройства 46 вместо идентификатора устройства 19).
Адаптер №1 - это LSI 9285-8e, адаптер №0 (который я удалил из-за нехватки места) - это встроенная БИС.
Информация об адаптере:
Adapter #1
==============================================================================
Versions
================
Product Name : LSI MegaRAID SAS 9285-8e
Serial No : SV12704804
FW Package Build: 23.1.1-0004
Mfg. Data
================
Mfg. Date : 06/30/11
Rework Date : 00/00/00
Revision No : 00A
Battery FRU : N/A
Image Versions in Flash:
================
BIOS Version : 5.25.00_4.11.05.00_0x05040000
WebBIOS Version : 6.1-20-e_20-Rel
Preboot CLI Version: 05.01-04:#%00001
FW Version : 3.140.15-1320
NVDATA Version : 2.1106.03-0051
Boot Block Version : 2.04.00.00-0001
BOOT Version : 06.253.57.219
Pending Images in Flash
================
None
PCI Info
================
Vendor Id : 1000
Device Id : 005b
SubVendorId : 1000
SubDeviceId : 9285
Host Interface : PCIE
ChipRevision : B0
Number of Frontend Port: 0
Device Interface : PCIE
Number of Backend Port: 8
Port : Address
0 5003048000ee8e7f
1 5003048000ee8a7f
2 0000000000000000
3 0000000000000000
4 0000000000000000
5 0000000000000000
6 0000000000000000
7 0000000000000000
HW Configuration
================
SAS Address : 500605b0038f9210
BBU : Present
Alarm : Present
NVRAM : Present
Serial Debugger : Present
Memory : Present
Flash : Present
Memory Size : 1024MB
TPM : Absent
On board Expander: Absent
Upgrade Key : Absent
Temperature sensor for ROC : Present
Temperature sensor for controller : Absent
ROC temperature : 70 degree Celcius
Settings
================
Current Time : 18:24:36 3/13, 2012
Predictive Fail Poll Interval : 300sec
Interrupt Throttle Active Count : 16
Interrupt Throttle Completion : 50us
Rebuild Rate : 30%
PR Rate : 30%
BGI Rate : 30%
Check Consistency Rate : 30%
Reconstruction Rate : 30%
Cache Flush Interval : 4s
Max Drives to Spinup at One Time : 2
Delay Among Spinup Groups : 12s
Physical Drive Coercion Mode : Disabled
Cluster Mode : Disabled
Alarm : Enabled
Auto Rebuild : Enabled
Battery Warning : Enabled
Ecc Bucket Size : 15
Ecc Bucket Leak Rate : 1440 Minutes
Restore HotSpare on Insertion : Disabled
Expose Enclosure Devices : Enabled
Maintain PD Fail History : Enabled
Host Request Reordering : Enabled
Auto Detect BackPlane Enabled : SGPIO/i2c SEP
Load Balance Mode : Auto
Use FDE Only : No
Security Key Assigned : No
Security Key Failed : No
Security Key Not Backedup : No
Default LD PowerSave Policy : Controller Defined
Maximum number of direct attached drives to spin up in 1 min : 10
Any Offline VD Cache Preserved : No
Allow Boot with Preserved Cache : No
Disable Online Controller Reset : No
PFK in NVRAM : No
Use disk activity for locate : No
Capabilities
================
RAID Level Supported : RAID0, RAID1, RAID5, RAID6, RAID00, RAID10, RAID50, RAID60, PRL 11, PRL 11 with spanning, SRL 3 supported, PRL11-RLQ0 DDF layout with no span, PRL11-RLQ0 DDF layout with span
Supported Drives : SAS, SATA
Allowed Mixing:
Mix in Enclosure Allowed
Mix of SAS/SATA of HDD type in VD Allowed
Status
================
ECC Bucket Count : 0
Limitations
================
Max Arms Per VD : 32
Max Spans Per VD : 8
Max Arrays : 128
Max Number of VDs : 64
Max Parallel Commands : 1008
Max SGE Count : 60
Max Data Transfer Size : 8192 sectors
Max Strips PerIO : 42
Max LD per array : 16
Min Strip Size : 8 KB
Max Strip Size : 1.0 MB
Max Configurable CacheCade Size: 0 GB
Current Size of CacheCade : 0 GB
Current Size of FW Cache : 887 MB
Device Present
================
Virtual Drives : 28
Degraded : 0
Offline : 0
Physical Devices : 59
Disks : 56
Critical Disks : 0
Failed Disks : 0
Supported Adapter Operations
================
Rebuild Rate : Yes
CC Rate : Yes
BGI Rate : Yes
Reconstruct Rate : Yes
Patrol Read Rate : Yes
Alarm Control : Yes
Cluster Support : No
BBU : No
Spanning : Yes
Dedicated Hot Spare : Yes
Revertible Hot Spares : Yes
Foreign Config Import : Yes
Self Diagnostic : Yes
Allow Mixed Redundancy on Array : No
Global Hot Spares : Yes
Deny SCSI Passthrough : No
Deny SMP Passthrough : No
Deny STP Passthrough : No
Support Security : No
Snapshot Enabled : No
Support the OCE without adding drives : Yes
Support PFK : Yes
Support PI : No
Support Boot Time PFK Change : Yes
Disable Online PFK Change : No
PFK TrailTime Remaining : 0 days 0 hours
Support Shield State : Yes
Block SSD Write Disk Cache Change: Yes
Supported VD Operations
================
Read Policy : Yes
Write Policy : Yes
IO Policy : Yes
Access Policy : Yes
Disk Cache Policy : Yes
Reconstruction : Yes
Deny Locate : No
Deny CC : No
Allow Ctrl Encryption: No
Enable LDBBM : No
Support Breakmirror : No
Power Savings : Yes
Supported PD Operations
================
Force Online : Yes
Force Offline : Yes
Force Rebuild : Yes
Deny Force Failed : No
Deny Force Good/Bad : No
Deny Missing Replace : No
Deny Clear : No
Deny Locate : No
Support Temperature : Yes
Disable Copyback : No
Enable JBOD : No
Enable Copyback on SMART : No
Enable Copyback to SSD on SMART Error : Yes
Enable SSD Patrol Read : No
PR Correct Unconfigured Areas : Yes
Enable Spin Down of UnConfigured Drives : Yes
Disable Spin Down of hot spares : No
Spin Down time : 30
T10 Power State : Yes
Error Counters
================
Memory Correctable Errors : 0
Memory Uncorrectable Errors : 0
Cluster Information
================
Cluster Permitted : No
Cluster Active : No
Default Settings
================
Phy Polarity : 0
Phy PolaritySplit : 0
Background Rate : 30
Strip Size : 64kB
Flush Time : 4 seconds
Write Policy : WB
Read Policy : Adaptive
Cache When BBU Bad : Disabled
Cached IO : No
SMART Mode : Mode 6
Alarm Disable : Yes
Coercion Mode : None
ZCR Config : Unknown
Dirty LED Shows Drive Activity : No
BIOS Continue on Error : No
Spin Down Mode : None
Allowed Device Type : SAS/SATA Mix
Allow Mix in Enclosure : Yes
Allow HDD SAS/SATA Mix in VD : Yes
Allow SSD SAS/SATA Mix in VD : No
Allow HDD/SSD Mix in VD : No
Allow SATA in Cluster : No
Max Chained Enclosures : 16
Disable Ctrl-R : Yes
Enable Web BIOS : Yes
Direct PD Mapping : No
BIOS Enumerate VDs : Yes
Restore Hot Spare on Insertion : No
Expose Enclosure Devices : Yes
Maintain PD Fail History : Yes
Disable Puncturing : No
Zero Based Enclosure Enumeration : No
PreBoot CLI Enabled : Yes
LED Show Drive Activity : Yes
Cluster Disable : Yes
SAS Disable : No
Auto Detect BackPlane Enable : SGPIO/i2c SEP
Use FDE Only : No
Enable Led Header : No
Delay during POST : 0
EnableCrashDump : No
Disable Online Controller Reset : No
EnableLDBBM : No
Un-Certified Hard Disk Drives : Allow
Treat Single span R1E as R10 : No
Max LD per array : 16
Power Saving option : Don't Auto spin down Configured Drives
Max power savings option is not allowed for LDs. Only T10 power conditions are to be used.
Default spin down time in minutes: 30
Enable JBOD : No
TTY Log In Flash : No
Auto Enhanced Import : No
BreakMirror RAID Support : No
Disable Join Mirror : No
Enable Shield State : Yes
Time taken to detect CME : 60s
Exit Code: 0x00
Информация о корпусе:
# /opt/MegaRAID/MegaCli/MegaCli64 -encinfo -a1
Number of enclosures on adapter 1 -- 3
Enclosure 0:
Device ID : 36
Number of Slots : 28
Number of Power Supplies : 2
Number of Fans : 3
Number of Temperature Sensors : 1
Number of Alarms : 1
Number of SIM Modules : 0
Number of Physical Drives : 28
Status : Normal
Position : 1
Connector Name : Port B
Enclosure type : SES
VendorId is LSI CORP and Product Id is SAS2X36
VendorID and Product ID didnt match
FRU Part Number : N/A
Enclosure Serial Number : N/A
ESM Serial Number : N/A
Enclosure Zoning Mode : N/A
Partner Device Id : 65
Inquiry data :
Vendor Identification : LSI CORP
Product Identification : SAS2X36
Product Revision Level : 0718
Vendor Specific : x36-55.7.24.1
Number of Voltage Sensors :2
Voltage Sensor :0
Voltage Sensor Status :OK
Voltage Value :5020 milli volts
Voltage Sensor :1
Voltage Sensor Status :OK
Voltage Value :11820 milli volts
Number of Power Supplies : 2
Power Supply : 0
Power Supply Status : OK
Power Supply : 1
Power Supply Status : OK
Number of Fans : 3
Fan : 0
Fan Speed :Low Speed
Fan Status : OK
Fan : 1
Fan Speed :Low Speed
Fan Status : OK
Fan : 2
Fan Speed :Low Speed
Fan Status : OK
Number of Temperature Sensors : 1
Temp Sensor : 0
Temperature : 48
Temperature Sensor Status : OK
Number of Chassis : 1
Chassis : 0
Chassis Status : OK
Enclosure 1:
Device ID : 65
Number of Slots : 28
Number of Power Supplies : 2
Number of Fans : 3
Number of Temperature Sensors : 1
Number of Alarms : 1
Number of SIM Modules : 0
Number of Physical Drives : 28
Status : Normal
Position : 1
Connector Name : Port A
Enclosure type : SES
VendorId is LSI CORP and Product Id is SAS2X36
VendorID and Product ID didnt match
FRU Part Number : N/A
Enclosure Serial Number : N/A
ESM Serial Number : N/A
Enclosure Zoning Mode : N/A
Partner Device Id : 36
Inquiry data :
Vendor Identification : LSI CORP
Product Identification : SAS2X36
Product Revision Level : 0718
Vendor Specific : x36-55.7.24.1
Number of Voltage Sensors :2
Voltage Sensor :0
Voltage Sensor Status :OK
Voltage Value :5020 milli volts
Voltage Sensor :1
Voltage Sensor Status :OK
Voltage Value :11760 milli volts
Number of Power Supplies : 2
Power Supply : 0
Power Supply Status : OK
Power Supply : 1
Power Supply Status : OK
Number of Fans : 3
Fan : 0
Fan Speed :Low Speed
Fan Status : OK
Fan : 1
Fan Speed :Low Speed
Fan Status : OK
Fan : 2
Fan Speed :Low Speed
Fan Status : OK
Number of Temperature Sensors : 1
Temp Sensor : 0
Temperature : 47
Temperature Sensor Status : OK
Number of Chassis : 1
Chassis : 0
Chassis Status : OK
Enclosure 2:
Device ID : 252
Number of Slots : 8
Number of Power Supplies : 0
Number of Fans : 0
Number of Temperature Sensors : 0
Number of Alarms : 0
Number of SIM Modules : 1
Number of Physical Drives : 0
Status : Normal
Position : 1
Connector Name : Unavailable
Enclosure type : SGPIO
Failed in first Inquiry commnad
FRU Part Number : N/A
Enclosure Serial Number : N/A
ESM Serial Number : N/A
Enclosure Zoning Mode : N/A
Partner Device Id : Unavailable
Inquiry data :
Vendor Identification : LSI
Product Identification : SGPIO
Product Revision Level : N/A
Vendor Specific :
Exit Code: 0x00
Теперь обратите внимание, что каждое устройство с слотом 11 показывает идентификатор корпуса 36, я думаю, что здесь возникает несоответствие. Один должен быть 36. А другой должен быть в вольере 65.
Диски в слоте 11:
Enclosure Device ID: 36
Slot Number: 11
Drive's postion: DiskGroup: 5, Span: 0, Arm: 1
Enclosure position: 0
Device Id: 48
WWN:
Sequence Number: 11
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
PD Type: SATA
Raw Size: 2.728 TB [0x15d50a3b0 Sectors]
Non Coerced Size: 2.728 TB [0x15d40a3b0 Sectors]
Coerced Size: 2.728 TB [0x15d400000 Sectors]
Firmware state: Online, Spun Up
Is Commissioned Spare : YES
Device Firmware Level: A5C0
Shield Counter: 0
Successful diagnostics completion on : N/A
SAS Address(0): 0x5003048000ee8a53
Connected Port Number: 1(path0)
Inquiry Data: MJ1311YNG6YYXAHitachi HDS5C3030ALA630 MEAOA5C0
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: 6.0Gb/s
Link Speed: 6.0Gb/s
Media Type: Hard Disk Device
Drive Temperature :30C (86.00 F)
PI Eligibility: No
Drive is formatted for PI information: No
PI: No PI
Drive's write cache : Disabled
Drive's NCQ setting : Enabled
Port-0 :
Port status: Active
Port's Linkspeed: 6.0Gb/s
Drive has flagged a S.M.A.R.T alert : No
Enclosure Device ID: 36
Slot Number: 11
Drive's postion: DiskGroup: 19, Span: 0, Arm: 1
Enclosure position: 0
Device Id: 19
WWN:
Sequence Number: 4
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
PD Type: SATA
Raw Size: 2.728 TB [0x15d50a3b0 Sectors]
Non Coerced Size: 2.728 TB [0x15d40a3b0 Sectors]
Coerced Size: 2.728 TB [0x15d400000 Sectors]
Firmware state: Online, Spun Up
Is Commissioned Spare : NO
Device Firmware Level: A580
Shield Counter: 0
Successful diagnostics completion on : N/A
SAS Address(0): 0x5003048000ee8e53
Connected Port Number: 0(path0)
Inquiry Data: MJ1313YNG1VA5CHitachi HDS5C3030ALA630 MEAOA580
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: 6.0Gb/s
Link Speed: 6.0Gb/s
Media Type: Hard Disk Device
Drive Temperature :30C (86.00 F)
PI Eligibility: No
Drive is formatted for PI information: No
PI: No PI
Drive's write cache : Disabled
Drive's NCQ setting : Enabled
Port-0 :
Port status: Active
Port's Linkspeed: 6.0Gb/s
Drive has flagged a S.M.A.R.T alert : No
Обновление 28.06.12:
Наконец-то у меня появилась новая информация о (что мы думаем) о первопричине этой проблемы, поэтому я подумал, что поделюсь.
После того, как они связались с очень хорошо осведомленными специалистами по Supermicro, они предоставили нам инструмент под названием Xflash (похоже, не всегда доступен на их FTP). Когда мы собрали информацию с помощью этой утилиты, мой коллега обнаружил кое-что очень странное:
root @ mogile2 test] # ./xflash.dat -i получить доступ
Initializing Interface.
Expander: SAS2X36 (SAS2x36)
1) SAS2X36 (SAS2x36) (50030480:00EE917F) (0.0.0.0)
2) SAS2X36 (SAS2x36) (50030480:00E9D67F) (0.0.0.0)
3) SAS2X36 (SAS2x36) (50030480:0112D97F) (0.0.0.0)
Здесь перечислены подключенные корпуса. Вы видите 3 подключенных (с тех пор мы добавили 3-й и 4-й, который еще не отображается) с их соответствующим адресом SAS / WWN (50030480: 00EE917F). Теперь мы можем использовать этот адрес для получения информации об отдельных корпусах:
[root@mogile2 test]# ./xflash.dat -i 5003048000EE917F get exp
Initializing Interface.
Expander: SAS2X36 (SAS2x36)
Reading the expander information..........
Expander: SAS2X36 (SAS2x36) B3
SAS Address: 50030480:00EE917F
Enclosure Logical Id: 50030480:0000007F
IP Address: 0.0.0.0
Component Identifier: 0x0223
Component Revision: 0x05
[root@mogile2 test]# ./xflash.dat -i 5003048000E9D67F get exp
Initializing Interface.
Expander: SAS2X36 (SAS2x36)
Reading the expander information..........
Expander: SAS2X36 (SAS2x36) B3
SAS Address: 50030480:00E9D67F
Enclosure Logical Id: 50030480:0000007F
IP Address: 0.0.0.0
Component Identifier: 0x0223
Component Revision: 0x05
[root@mogile2 test]# ./xflash.dat -i 500304800112D97F get exp
Initializing Interface.
Expander: SAS2X36 (SAS2x36)
Reading the expander information..........
Expander: SAS2X36 (SAS2x36) B3
SAS Address: 50030480:0112D97F
Enclosure Logical Id: 50030480:0112D97F
IP Address: 0.0.0.0
Component Identifier: 0x0223
Component Revision: 0x05
Ты поймал это? Логический идентификатор первых двух корпусов частично замаскирован, тогда как третий (с правильным уникальным идентификатором корпуса) - нет. Мы сообщили об этом Supermicro и смогли подтвердить, что этот адрес должен быть установлен во время производства, и возникла проблема с определенной партией этих корпусов, для которых не был установлен логический идентификатор.
Мы считаем, что RAID-контроллер определяет идентификатор на основе логического идентификатора, и, поскольку наши первые 2 корпуса имеют одинаковый логический идентификатор, они получают одинаковый идентификатор корпуса. Мы также подтвердили, что 0000007F это значение по умолчанию, которое поступает от LSI в качестве идентификатора.
Следующим указателем, который помогает подтвердить, что это может быть производственная проблема с запуском JBOD, является тот факт, что все 6 корпусов с этой проблемой начинаются с 00E. Я считаю, что между 00E8 и 00EE Supermicro забыли правильно запрограммировать логические идентификаторы и не позаботились вспомнить или исправить проблему после обработки.
К счастью для нас, есть инструмент для управления WWN и логическим идентификатором устройств от Supermicro: ftp://ftp.supermicro.com/utility/ExpanderXtools_Lite/. Наш следующий шаг - запланировать отключение этих JBOD (после переноса данных) и перепрограммировать логический идентификатор и посмотреть, решит ли он проблему.
Обновление 28.06.12 № 2:
Я только что обнаружил этот FAQ в Supermicro, когда Google искал "lsi 0000007f": http://www.supermicro.com/support/faqs/faq.cfm?faq=11805. Я до сих пор не понимаю, почему в последние несколько раз, когда мы связывались с Supermicro, они никогда не направили бы нас к этой статье: \
Нам удалось наконец решить эту проблему. Конечная причина и решение? Похоже, из-за ошибки производственного процесса некоторые JBOD, поставляемые Supermicro, поставлялись с записанным по умолчанию логическим идентификатором (0000007F). Этот адрес фактически должен соответствовать адресу SAS по умолчанию.
Чтобы решить эту проблему, нам пришлось запустить инструмент ExpanderXtools Lite (ftp://supermicro.com/utility/ExpanderXtools_Lite/). Вы запускаете двоичный файл SMC и получаете всплывающее окно X-окна (вам либо понадобится установленный X, либо, если вы не используете X на своих серверах, таких как мы, локальный X-сервер на вашем ноутбуке будет перенаправлен через SSH). В программе SMC вы выбираете меню COM и нажимаете внутри полосы.
Теперь вы можете перейти в меню WWN и выбрать WWN. Новое всплывающее окно покажет ваш основной и дополнительный (если у вас модель E26) контроллеры JBOD. Перед закрытием окна необходимо обновить оба контроллера одновременно. После обновления и закрытия окна выключите массив на некоторое время и снова включите. Снова используйте двоичный код SMC, чтобы убедиться, что логический адрес отображается правильно.
Самой большой проблемой при этом было отключение массивов. Возможно, это удастся сделать в Интернете и выполнить повторное сканирование с помощью карты RAID. Но лучше перестраховаться. Идентификаторы портов для дисков изменятся. Для нас наша карта LSI смогла забрать массивы после изменения. Ваш пробег может отличаться.
Я не знаю, почему у MegaRAID в списке слотов для обоих корпусов один и тот же идентификатор, но вы определенно можете идентифицировать эти два корпуса по Connected Port Number
.
Список приложений:
ID36 is on the adapter port B
ID63 is on the adapter port A
Список слота 11:
Device ID48 is on the port 1
Device ID19 is on the port 0
Я думаю, что вы можете идентифицировать port 0 as port A
и port 1 as port B