Расшифровка продолжающихся сообщений системного журнала mpt2sas

Резюме

Я получаю эти загадочные сообщения в системном журнале с тех пор, как установил какое-то новое оборудование, и я не могу понять, в чем проблема, серьезна ли она или что с ней делать.

Они от нового SATA HBA и следуют шаблону. Через 5-30 секунд я получу несколько первых сообщений, а затем несколько вторых. Они поступают в виде капель, которые регистрируются за одну и ту же секунду, и точное количество каждого варьируется от 2 до 35. Между появлением записей могут быть минуты или часы.

Пример двух сообщений:

Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)

Всегда 0x31120303, за которым следует 0x31110d01.

mpt2sas - это драйвер для адаптера шины хоста SATA, который я использую, но содержание ошибки слишком загадочно. Он не сообщает мне, в чем проблема, с каким диском или портом она связана и насколько она серьезна.

Оборудование

Супермикро X9SCL с Xeon E3-1220 и 8 ГБ оперативной памяти.

LSI SAS2008 на базе Supermicro AOC-USAS2-L8I SAS / SATA HBA, подключенный к Supermicro CSE-M35T-1B набор лотков для дисков. Имеет три Western Digital WD30EZRX и два Segate ST3000DM001 подключен к нему. Все диски по 3 ТБ (на самом деле точно такое же количество секторов). Расширители портов не используются.

HBA, лотки для дисков и 4 диска новые. Один из WD30EZRX находится в эксплуатации несколько месяцев, проблем с ним не было. Если бы он ранее был подключен к встроенному контроллеру Intel SATA, переместите его в отсеки для дисков с этой новой настройкой.

Были проблемы с HBA, требующим частой перезагрузки и очень плохой производительностью. Обновил прошивку / биографию до «Phase 12», последней версии, доступной от Supermicro, и изменил тип на IT (т.е. сквозной, с IR для интегрированного рейда, поскольку я собирался использовать весь программный рейд): 2008IT12.FW. Это обновление устранило все ранние проблемы, и я начал получать вышеуказанные сообщения только позже (см. Ниже).

Все первые четыре диска, которые я добавил, подключены к первому порту SFF-8087 (разделены на 4 кабеля SATA). Последний диск, который я добавил, находится на другом порту, если это важно.

Единственный другой диск в системе содержит ОС и представляет собой более старый твердотельный накопитель Intel 80 ГБ, подключенный к встроенному контроллеру SATA.

Программное обеспечение

Ubuntu 11.10 (онейрический). Linux 3.0.0-14-сервер x86_64. Использование драйвера mpt2sas, поставляемого с ОС.

Попытка построить массив RAID6 с использованием Linux md с этими пятью дисками. Начал с вырожденного массива из 3 дисков, двух сегментов и одного из новых дисков WD. Это было быстро и прошло очень хорошо, сообщений в журналах после обновления прошивки не было. Между тем, я все еще использую старый диск WD на порте 0 того же контроллера.

Добавлен другой новый диск WD в массив. Началась перестройка, и теперь я периодически получаю эти сообщения в системном журнале. Я не уверен, сколько времени потребуется, чтобы добавить диск в массив, но расчетное время (cat / proc / mdstat) колеблется от тысяч до десятков тысяч минут, что намного больше, чем потребовалось для первых 3 дисков. Я понимаю, что диски WD намного медленнее; У меня были разные модели, чтобы снизить вероятность отказа нескольких дисков, и это были две самые дешевые модели емкостью 3 ТБ.

Ноты

SMART не сообщает о проблемах на дисках. Ни на одном из дисков нет зарегистрированных ошибок, и ни одна из статистических данных о сбоях не приближается к пороговому значению.

Зарегистрированные сообщения начали появляться только после того, как я добавил последний диск, что говорит о том, что у кого-то может быть проблема, но у меня нет ничего другого, указывающего на это.

Я нашел заголовочный файл это похоже на сообщения журнала от этого драйвера. Первое сообщение похоже на прерывание (код 12) для «субкода» 0303, которого нет в списке. Второе сообщение - сброс (код 11) по непонятной причине. Если бы я мог определить, что означают 0303 и 0d01, это было бы действительно полезно.

Я знаю, что 4 диска в 5 дисковом RAID6 - неполный массив. Я планирую скопировать содержимое старого диска в массив после того, как он завершит интеграцию 4-го диска, а затем также добавить старый диск в массив.

Вероятно, ваш лучший выбор - это проблема с оборудованием где-то между вашими дисками и контроллером рейда sas включительно. Рекомендую попробовать:

Запустите любые диагностические инструменты от поставщика, если они доступны
Проверить / переустановить / заменить кабели
удалите аппаратные компоненты и поменяйте местами оборудование в цепочке, которая соединяет диски с вашим raid-контроллером, включая сам контроллер (т.е. для вас, попробуйте что-нибудь еще, кроме встроенного raid на материнской плате).

У меня был один из двух идентичных Dell PowerEdge R515, выдающих очень похожие сообщения (журналы периодически заполняются сообщениями mpt2sas0, хотя у меня нет точных числовых кодов). Собственная загрузочная диагностика Dell определила их как «аппаратные ошибки», и замена объединительной платы RAID sas решила проблему.

Во время расследования я не смог найти исчерпывающий ресурс о том, что означают различные коды ошибок mpt2sas0. Я подозреваю, что они могут даже зависеть от производителя оборудования (кто-то, кто знает больше о SAS, должен подтвердить или опровергнуть это). Таким образом, ваши коды ошибок могут означать что-то совершенно иное, но если SMART чист, трудно представить другие веские причины, по которым mpt2sas0 сообщает коды ошибок.

Эти ошибки могут быть очень серьезными. Мой R515 вроде бы нормально работал с этими сообщениями в течение недели с программным raid 6 Ubuntu Linux на 12 дисков, но затем внезапно выбросил все 12 дисков из массива как сломанные (!)

Также в моем случае SMART для всех дисков был полностью чистым. Хорошая проверка - это умный тест самодиагностики: smartctl -t long /dev/sdX, а затем проверьте результаты примерно через день с помощью smartctl -l selftest /dev/sdX. Если все в порядке, тест должен сказать Completed и LBA_first_err столбец должен быть пустым.

Вау, крутой.

это похоже, указывает на то, что 0x31120303 - это сброс шины из-за того, что одно из ваших устройств находится под большой нагрузкой. Также сказано, что вам не нужно об этом беспокоиться. (Ха-ха, да, верно.)

это указывает, что эти сообщения журнала происходят из-за того, что одно из ваших устройств слишком долго реагирует на команды. это говорит то же самое, а также указывает, что это происходит под большой нагрузкой.

Хотя это не полный ответ, надеюсь, он укажет вам полезное направление.

Это означает, что у вас есть ошибка на диске, это диск SATA в контроллере SAS от LSI, и из-за ошибки все невыполненные запросы были прерваны.

В большинстве случаев на диске имеется средняя ошибка, которая является причиной этой ошибки. Эта ошибка сама по себе не означает ошибку среднего размера, и вам нужно будет проверить журналы на наличие других подсказок, чтобы найти источник отказа исходного диска.

Немного более доработанная версия по адресу: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/