У меня есть сервер, оснащенный RAID-контроллером LSI 9271-8i, 4 х 4 ТБ организованы как RAID-5 и 1 х 8 ТБ как JBOD (который в контроллере называется RAID-0).
Когда я копирую большие объемы данных (~ 1 ТБ), я могу наблюдать следующее: для первых нескольких гигабайт скорость передачи нормальная и ограничена скоростью диска или сети, обычно ~ 100 МБ / с. Но через некоторое время передача полностью приостанавливается прим. 20–30 секунд, затем прибл. 1 ГБ. Я копирую много файлов, каждый размером от 10 до 500 МБ, и во время паузы robocopy остается в файле и переходит к следующему после паузы. Таким образом, общая скорость передачи данных упадет до ~ 20 МБ / с.
Во время паузы просмотр файлов дисков невозможен, и в одном случае я получил сообщение об ошибке сброса контроллера («Контроллер обнаружил фатальную ошибку и был сброшен»). Также доступ к данным контроллера с помощью инструмента CLI невозможен во время этой паузы (результат отображается, когда пауза закончилась).
Я мог наблюдать такое поведение при копировании
Нет ничего подозрительного для меня: температуры (диски, BBU) находятся в допустимом диапазоне, температура контроллера кажется немного высокой, но тоже в пределах спецификации. На RAID не выполняются проверки, не выполняется восстановление.
Есть догадки?
Перед заменой контроллера я хочу попробовать оптимизировать тепловую ситуацию. Похоже ли это поведение на возможную тепловую проблему?
Мне кажется странным, что первые 20-30 Гб работают нормально, а пауз до этого не бывает. Если я оставлю сервер в покое на некоторое время и попытаюсь повторить попытку, то снова будет скопировано несколько ГБ. Единственное наивное объяснение для меня - слишком сильно нагревается контроллер. Почему именно контроллер, а не диски? Диски RAID-5 имеют скорость 7200 об / мин и расположены очень близко друг к другу, в то время как одиночный диск JBOD имеет скорость 5400 об / мин и с большим количеством воздуха вокруг. Было бы странно, если бы у обоих были одинаковые симптомы перегрева.