Назад | Перейти на главную страницу

Странные проблемы с разными контроллерами рейдов. Может это быть связано с экологической проблемой?

Мы работаем над проектом, который включает разное оборудование, размещенное в одной стойке. В основном это серверы IBM: 2 x206 (scsi), 1 x226 (scsi), 2 x3400 (sata) и еще одна машина в сборе с контроллерами sata. Мы используем несколько рейд-контроллеров. Некоторые машины имеют только один контроллер Serveraid, другие имеют один или несколько контроллеров, не всегда контроллеры Adaptec. Все прошивки и биос обновлены. Все серверы и подключенные устройства находятся под ИБП.

За последние 4 месяца мы испытали несколько странных особенностей нашего оборудования. Внезапно и случайным образом теряется 2 или 3 диска, и тома raid перестают работать. Это может происходить раз в неделю, но никогда в одно и то же время дня или недели.

В большинстве случаев процесс восстановления решает проблему, иногда мы теряем данные. Очень часто нам просто нужно отключить контроллеры рейдов, перезапустить сервер, и проблема решена.

Вначале мы думали, что это из-за ошибок прошивки, но мы выполнили точное обновление для каждой машины и рейд-контроллера, и мы больше ничего не можем сделать с оборудованием. У нас нет никаких намеков на то, что вызывает все эти проблемы.

Мы начинаем думать, что это проблема окружающей среды, но не знаем, может ли что-то мешать работе нашего оборудования. Вы когда-нибудь слышали о таком? У вас есть идеи, как исследовать проблему?

Это легко может быть связано с ошибками прошивки не на контроллере, а на дисках. Слишком часто видел это, чтобы сосчитать.

Если бы у меня были диски разных производителей на контроллерах RAID от разных поставщиков на серверах разных поставщиков, которые выходили из строя с ненормальной скоростью, я бы начал рассматривать высокие температуры и плохой воздушный поток в серверной комнате как потенциальную причину проблемы.