У меня есть сервер Dell T110 с контроллером SAS 6i / R и двумя жесткими дисками в RAID 1. Иногда в журнале событий Windows появляется предупреждение со следующим сообщением:
Отчет о порте SAS: соединение с широким портом 2 SAS потеряно на PHY 2 .: Контроллер 0 (адаптер SAS 6 / iR)
И примерно через 20 секунд появляется следующее информационное сообщение:
Отчет о порте SAS: соединение с широким портом 2 SAS восстановлено на PHY 2: контроллер 0 (адаптер SAS 6 / iR)
До сих пор я не заметил сбоев в работе программ, работающих на этом сервере. Это признак будущих проблем с контроллером или дисками? Кто-нибудь из вас когда-нибудь видел что-то подобное?
Обновить
Вчера, через 3 дня после того, как я опубликовал этот вопрос, настройка RAID 1 потеряла избыточность. После последовательности сообщений, упомянутых выше, были зарегистрированы следующие сообщения:
(10-07-2012 21:42:42) - Обнаружена неверная конфигурация SAS. Подробности: ошибка топологии SAS: устройство без адреса: контроллер 0 (адаптер SAS 6 / iR)
(10-07-2012 21:42:45) - Произошел сброс на устройство \ Device \ RaidPort0.
(10-07-2012 21:43:02) - Ошибка устройства: физический диск 0: 2 контроллер 0, разъем 0
(10-07-2012 21:52:59) - Драйвер обнаружил ошибку контроллера на \ Device \ RaidPort0.
(10-07-2012 21:53:02) - Избыточность потеряна: виртуальный диск 1 (виртуальный диск 1) контроллер 0 (адаптер SAS 6 / iR)
(10-07-2012 21:53:02) - Виртуальный диск деградировал: виртуальный диск 1 (виртуальный диск 1) контроллер 0 (адаптер SAS 6 / iR)
(10-07-2012 21:53:02) - Восстановление не удалось из-за ошибок на целевом физическом диске .: Физический диск 0: 2 Контроллер 0, Коннектор 0
По этим сообщениям можно предположить, что проблема связана с одним из дисков массива. Сейчас я использую инструмент Dell Online Diagnostics для тестирования дисков. Пока один из дисков завершил тесты, другой завис на 20%. Думаю, я нашел виноватого.
Как предложил Митч, я сначала должен убедиться, что на всех компонентах вашего сервера установлена последняя версия микропрограммы и последние версии драйверов. У нас случались отказы целых жестких дисков, потому что на них не было последней прошивки (на самом деле, 3 подряд, пока Dell не выяснила, что прошивка на реальных дисках устарела). Это не имеет ничего общего с вашим случаем, но я пытаюсь проиллюстрировать, что держать ваши устройства на последней версии прошивки - это больше, чем просто «хорошая практика».
Просто перейдите сюда и введите свой сервисный тег: http://www.dell.com/support/home/us/en/04/home2.
Мы отслеживаем события DELL в течение многих лет, и к событиям, регистрируемым OpenManage, не следует относиться легкомысленно. Предупреждение, которое вы получаете, скорее всего, указывает на проблему, которую необходимо решить.
Причина, по которой вы, вероятно, не замечаете никаких проблем, заключается в том, что вы используете RAID 1. Таким образом, даже полное отключение одного из дисков не вызовет каких-либо заметных проблем, хотя это может привести к перестройке рейда (что будет зарегистрировано как хорошо).
Если вы продолжаете видеть эти события после обновления всех драйверов и микропрограмм, я бы выключил сервер (если возможно), отключил и снова подключил кабели жесткого диска.
Если проблема не исчезнет, я бы позвонил в DELL, так как это, скорее всего, проблема с оборудованием, например, неисправный кабель, объединительная плата и т. Д.