У нас есть более 500 серверов, построенных с материнскими платами Supermicro и памятью Kingston, и мы обычно видим следующие предупреждения:
# fmdump -v
TIME UUID SUNW-MSG-ID
Oct 27 15:49:44.9379 108510ec-b4e1-c94b-dd9f-f7b2969a4725 INTEL-8001-94
100% fault.memory.intel.dimm_ce
Problem in: hc://:product-id=X7DB8:chassis-id=0123456789:server-id=hostname:serial=180104092839051c6a:part=KINGSTON:revision=C1/motherboard=0/memory-controller=1/dram-channel=3/dimm=0/rank=1
Affects: hc://:product-id=X7DB8:chassis-id=0123456789:server-id=hostname:serial=180104092839051c6a:part=KINGSTON:revision=C1/motherboard=0/memory-controller=1/dram-channel=3/dimm=0/rank=1
FRU: hc://:product-id=X7DB8:chassis-id=0123456789:server-id=hostname:serial=180104092839051c6a:part=KINGSTON:revision=C1/motherboard=0/memory-controller=1/dram-channel=3/dimm=0
Location: DIMM4A
У меня вопрос: насколько достоверны эти сбои при работе на оборудовании сторонних производителей?
Мы перепробовали почти все (за исключением того, что никогда больше не использовали эти компоненты), но неисправности возвращаются случайным образом (например, замените dimm4a, и через несколько месяцев у dimm1b возникнет неисправность, замените всю память и материнскую плату, и через несколько дней обнаружится еще одна неисправность).
Заменяемая память тестируется в течение нескольких дней с помощью memtest, и мы никогда не можем найти проблемы. Другие команды, использующие такое же оборудование с Windows и Linux, этого не видят. Солярис слишком чувствителен?
Сейчас мы проходим еще один раунд замены памяти, но это становится болью. Мы также не смогли найти ничего плохого в серверах, они работали нормально, но беспорядочно появляющиеся ошибки памяти пугают. Должны ли мы их игнорировать?
ОС: OpenSolaris 2009.6 (b111)
Я могу только догадываться, но из того, что я прочитал, заключается в том, что неисправность, с которой вы столкнулись, связана с тем, что количество исправимый Ошибки ECC за заданное время были превышены. Это определенно проблема, и ее нужно решать.
Если, однако, ваша другая команда запускает окна на этих ящиках и не испытывает никаких проблем, это может быть связано с тем, что окна просто исправляют исправляемую ошибку ECC и молчат, когда OpenSolaris или FMA выдают предупреждение.
Это однозначно нельзя игнорировать. Если бы я был на вашем месте, я бы потратил время на дальнейшее исследование машины с Windows, и есть ли возможность проверить исправленные, исправимые ошибки ECC.