Назад | Перейти на главную страницу

Часто ли у контроллеров RAID возникают проблемы с совместимостью дисков SATA?

Мы боролись с RAID-контроллером на нашем сервере базы данных, Lenovo ThinkServer RD120. Это ребрендинг Adaptec, который Lenovo / IBM называет ServeRAID 8k.

Мы исправили это ServeRAID 8k до самых последних и лучших:

У этого RAID-контроллера было несколько критических обновлений BIOS даже за те короткие 4 месяца, что мы владели им, а изменить историю просто .. ну страшно.

Мы испробовали стратегии обратной и сквозной записи на логических дисках RAID. Мы по-прежнему получаем периодические ошибки ввода-вывода при большой активности диска. Они не распространены, но когда они случаются, они серьезны, поскольку вызывают тайм-ауты ввода-вывода SQL Server 2008, а иногда и сбой пулов соединений SQL.

Мы закончили поиск и устранение этой проблемы. Если не считать хардкорных вещей вроде замены всего сервера или замены оборудования RAID, мы были в отчаянии.

Когда я впервые получил сервер, у меня была проблема, когда отсек для дисковода №6 не распознавался. Как ни странно, замена жестких дисков другой марки устранила это - и обновление RAID BIOS (впервые из многих) устранило это навсегда, так что я смог использовать исходный "несовместимый" диск в отсеке 6. На a догадка, я начал предполагать, что жесткие диски Western Digital SATA Я выбрал какие-то несовместимые с контроллером ServeRAID 8k.

Покупка 6 новых жестких дисков была одним из самых дешевых вариантов, поэтому я выбрал 6 жестких дисков Hitachi (он же IBM, он же Lenovo) в соответствии с теорией, что RAID-контроллер IBM / Lenovo с большей вероятностью будет работать с дисками, с которыми он обычно продается.

Похоже, эта догадка окупилась - мы пережили три самых тяжелых дня загрузки (пн, вт, среда) без единой ошибки ввода-вывода любого рода. До этого у нас регулярно было хотя бы одно «событие» ввода-вывода в этот период времени. Похоже, что смена марки жесткого диска устранила наши периодически возникающие проблемы ввода-вывода RAID!

Хотя я понимаю, что IBM / Lenovo, вероятно, тестирует свой RAID-контроллер исключительно с жесткими дисками своей собственной марки, я обеспокоен тем, что у RAID-контроллера могут быть такие тонкие проблемы ввода-вывода с жесткими дисками определенных марок.

Итак, мой вопрос: распространена ли несовместимость дисков SATA с RAID-контроллерами? Существуют ли диски одних марок, которые работают лучше других, или "проверены" на соответствие конкретному RAID-контроллеру? Я предполагал, что все стандартные жесткие диски SATA одинаковы и будут достаточно хорошо работать с любым RAID-контроллером (достаточного качества).

Даже для обычных жестких дисков для настольных ПК без RAID покупка дисков у поставщика (с ожидаемой смешной наценкой) часто может иметь значение. Например, Apple старается поставлять только те диски, которые действительно способны в честь Mac OS X F_FULLSYNC fcntl() флаг, что очень важно для того, чтобы такие вещи, как Машина времени бэкапы работают надежно.

Опять же, это обычная ваниль рабочий стол использовать без использования RAID. Что-нибудь более сложное, чем это, и вы определенно захотите купить, если не собственные диски производителя по завышенной цене, то по крайней мере модели дисков, которые, как вы точно знаете, находятся в «одобренном» списке поставщика.

Итак, отвечая на ваш вопрос, распространено ли это? Я бы сказал, да, чаще, чем вы думаете, даже за пределами корпоративной сферы.

да, Я сталкивался с этим с младшими картами и глючными драйверами. Тем не мение, нет, а не на обновленной карте с ребрендингом Adaptec. Вау, это все, что я могу сказать. Одна вещь, которую следует учитывать, может быть, это скорее ошибка диска, чем RAID-контроллера.

У меня нет хорошего ответа, но, поскольку вы, похоже, исчерпали большинство своих возможностей, кроме замены карты (и замена дисков сделала свое дело), ​​вот несколько идей, которые вы можете рассмотреть для устранения неполадок:

  • Диски WD были дисками RE (RAID Edition), верно? Ограниченное по времени восстановление после ошибок важно, поэтому, если у вас его нет, а диск пытается восстановить сектор, вы получите долгую паузу с этого диска. Если RAID-контроллер проявит терпение и не уронит диск, у вас возникнут большие проблемы.

  • Проверьте данные SMART на дисках вы удалили и посмотрите, есть ли что интересное.

Еще один комментарий о важности функции ограниченного по времени восстановления после ошибок (TLER) от поддержки поставщика NAS / RAID:

Как я упоминал ранее, мы всегда рекомендуем клиентам использовать диски корпоративного уровня, если они используют диски в настройках RAID. Диски корпоративного уровня имеют более стабильное время отклика, поэтому RAID будет более безопасным.

Я не думаю, что это обычное явление само по себе. Однако, как только вы начнете использовать контроллеры корпоративных хранилищ, будь то контроллеры SAN или автономные RAID-контроллеры, вы, как правило, захотите довольно строго придерживаться их списка совместимости.

Возможно, вы сможете сэкономить немного денег на этикетке, купив дешевый набор дисков, но это, вероятно, одна из последних областей, на которых я хотел бы сэкономить, учитывая важность данных в большинстве сценариев.

Другими словами, явная несовместимость очень редка, но явное соблюдение совместимости рекомендуется.

Я бы не мечтал об использовании дисков SATA для сервера - ни у одного из них нет ожидаемого рабочего цикла, как у диска серверного качества, и у них нет богатого набора команд, который есть у SCSI / SAS для мониторинга производительности и состояния диска. Серверы Lenovo дешевы и хороши, если у вас много серверов, ни один из которых не является действительно важным, но есть причина, по которой серверы HP серии 300 составляют 40% рынка - они работают. В частности, их контроллеры дисков «SmartArray» не имеют себе равных по надежности и производительности, а их гарантия до отказа является долгожданным дополнением. Не самый дешевый, но сколько стоит ваше время? Я покупаю их (ну, Compaq first tbh) серверы уже двадцать лет, и у меня нет никаких проблем с покупкой 500-800 новых в год, как у меня. Серьезно проверьте их.

Ответ, как всегда, - это зависит от обстоятельств.

Для определенных корпоративных систем хранения данных (например, EMC) поставщик будет специально определять диски и даже загружать специальную прошивку.

Как говорит Марк, я считаю, что лучше всего следовать утвержденному списку поставщика, если он есть. Первоначальная экономия перевешивается временем, потраченным на выслеживание гремлинов.

У вас есть контроллер SAS, это может быть проблемой. Хотя протокол SAS может использоваться для туннелирования команд ATA, передача сигналов на физическом уровне немного отличается (SAS использует более высокое напряжение и более широкий дифференциал). Почти все контроллеры могут напрямую общаться с дисками SATA, но если в середине есть (большая? Дрянная?) Объединительная плата, сигнал может быть нарушен. Обычно в корпоративном мире установка драйверов SATA прямо к контроллеру SAS официально не поддерживается, вам следует использовать промежуточную плату (небольшая логическая плата, которая подключается непосредственно к диску, которая с одной стороны понимает полный протокол SAS, а с другой стороны говорит ATA - таким образом объединительная плата несет более высокий SAS сигнализация).

В некоторой степени связано: смешивание дисков SAS и SATA на одной объединительной плате имеет тенденцию к сбою, потому что сигнализация всех дисков (включая SAS) понижена до уровня SATA.

Скорее всего ваши диски WD нуждаются в обновлении прошивки. Видеть эта записка IBM для загрузки и применения обновления. Как видно из инструкции, диски WD - далеко не единственные с проблемами.

Если вы собираетесь поместить свои диски в серверную среду с высокими требованиями, вы обязательно столкнетесь с большим количеством проблем, чем в типичной конфигурации настольного компьютера для энтузиастов.

Не могли бы вы прокомментировать, почему вы выбрали класс рабочего стола Deskstar серия дисков вместо класса Enterprise / RAID Ultrastar серии? Считаете ли вы, что дополнительная стоимость не стоит дополнительной надежности и скорости?

Как инженер, работающий с RAID-контроллерами, я могу сказать, что некоторые марки дисков нередко имеют проблемы с определенными RAID-контроллерами. У каждого диска есть свои особенности, и каждая модель диска, указанная в списке «совместимых устройств» контроллера, будет учитывать свои особенности контроллером. Чтобы модель привода отображалась в списке, она должна соответствовать стандартам производителя контроллера в отношении производительности и надежности. Любой диск, которого нет в этом списке, может работать, но поскольку он не прошел такое же тщательное тестирование, как «одобренные» устройства, YMMV.

В частности, протокол SATA позволяет использовать специфичные для производителя (нестандартизированные) команды, которые могут быть определены приводом или контроллером. В вашем случае вы можете видеть контроллер, который ожидает, что диск ответит на определенную проприетарную команду, или диск, который ожидает увидеть проприетарную команду, которая никогда не поступает.

Другая возможность заключается в том, что ваши проблемные диски не очень хорошо себя ведут при определенных стрессовых рабочих нагрузках, и поведение, которое вы видите, было достаточно для Adaptec / IBM, чтобы не указать эту модель диска как поддерживаемую.

К сожалению, протоколы хранения (SATA, SAS и т. Д.) Не так хороши, как другие стандартизированные интерфейсы (USB, PCI и т. Д.), Где все, что вам нужно, - это шина и устройство, говорящие на одном языке, и все в порядке. Особенно когда речь идет об оборудовании корпоративного уровня, производители устройств и производители приводов тратят много времени и энергии на совместную работу, чтобы клиенты получали максимально возможную производительность от конфигураций, используемых большинством клиентов (то есть, используя диски вне сети). список "поддерживаемых устройств"). Диск, которого нет в этом списке, возможно, был разработан для оптимальной работы с контроллерами другой марки, и обнаруженные ошибки являются побочным эффектом оптимизации.