Мой текущий диагноз заключается в том, что имеется аппаратный сбой, связанный либо с памятью аппаратного RAID-контроллера, либо с чем-то связанным с дополнительным соком, который требуется жестким дискам при работе на полной мощности.
Пробовал заменить БП, кубика нет. Пробовал вживую загрузить другую ОС, без кубика. Высокий объем операций ввода-вывода на диске обеспечивает принудительное завершение работы независимо от ОС. Я установил, что новый сервер обязательно нужен.
Однако теперь я столкнулся с проблемой создания резервной копии содержимого дисков, не вызывая большого количества операций ввода-вывода. Я настроил контрольные группы с ограничением IOps, с которым я играл, чтобы увидеть, насколько он может быть высоким, не вызывая отключения. Кажется, что результаты немного отличаются от каждого диска, но в среднем около 100 операций в секунду, кажется, работают дольше, прежде чем произойдет сбой. Однако это практически невозможно, учитывая, что имеется около 120 ГБ данных. Кстати, это диски SAS 15K.
Кажется, что регулирование ввода-вывода работает, но это утомительный процесс, поскольку я должен все это настраивать снова, когда сервер выключается. Я копирую данные с дисков на внешний диск с помощью Runtime Live CD (вилка Knoppix).
Серверу около 7 лет, а лишнего разъема для дисков у меня не бывает.
Каков надежный способ получения данных с дисков в такой ситуации?
Просто для справки, это ссылка, которая помогла мне настроить cgroups, ограничивающие ввод-вывод: http://fritshoogland.wordpress.com/2012/12/15/throttling-io-with-linux/
Я сам видел нечто подобное, хотя это было несколько лет назад.
В моем случае это была проблемная память, и при копировании данных происходило какое-то кеширование, которое, как я подозревал, медленно использовало память, пока не добралось до проблемной памяти и ... бум! разбился компьютер. Тест памяти должен определить это достаточно легко или, возможно, удалить часть памяти, чтобы увидеть, решает ли он или усугубляет проблему?
Если нет, то я сомневаюсь, что его пропускная способность связана с пропускной способностью, и что пропускная способность просто откладывает проблему, скрывая при этом фактическую причину.
Возможно, стоит проверить температуру ЦП также на тот случай, если копия данных вызывает достаточно работы ЦП, чтобы поднять его до точки сбоя? т.е. с отказавшим вентилятором или проскальзывавшим радиатором? замедление копирования данных просто снижает нагрузку настолько, чтобы задержать повышение температуры.
Наконец, вы не говорите, как настроены ваши диски? т.е. RAID или JBOD? вы можете переместить диски на другой сервер индивидуально или в группе? очевидно, не перемещайте их просто, если они являются дисками RAID, кроме как в крайнем случае! если, конечно, вы не знаете, что делаете!
HTH