Назад | Перейти на главную страницу

Статистика неисправности оперативной памяти

Кто-нибудь знает о статистике или исследованиях о том, как часто компьютеры имеют неисправную RAM?

Обновить: Мой компьютер в порядке! Проблем с оперативной памятью нет, интересует статистика. Я получаю отчеты об ошибках для своего программного обеспечения, одной из причин которых может быть неисправность ОЗУ на компьютере пользователя, и я хотел бы знать, насколько это вероятно.

Спасибо!

Карл

В совокупности машин класса серверов 36 я вижу исправимый неисправность обнаруживается схемой ECC один раз в 3 месяца.

Если вы подозреваете сбой памяти, вам следует запустить memtest86, который в наши дни входит практически во все популярные дистрибутивы Linux.

От Робина Харриса Частота ошибок DRAM: кошмар на улице DIMM:

Два с половиной года исследования DRAM на десятках тысяч серверов Google показали, что частота ошибок DIMM в сотни и тысячи раз выше, чем предполагалось, - в среднем 3751 исправляемая ошибка на DIMM в год.

Харрис цитирует исследование, проведенное более 2,5 лет на парке серверов Google. Обратите внимание, что серверы обычно используют оперативную память EEC, которая выполняет некоторую коррекцию ошибок. В компьютерах потребительского уровня этого обычно нет.

Берке Дурак лямбда-диода вычисляет:

Во-первых, предположим, что у вас есть система без исправления ошибок и контроля четности. Вероятность того, что вы столкнетесь с битовой ошибкой в ​​течение времени T, будет 1- (1-p) ^ m.

Для T = 1 час p = 1,3e-12 и m = 4 * 2 ^ 30 * 8, что дает 0,044 или 4,4%. Это довольно большая вероятность. Действительно, за один день это приводит к вероятности 66%, а через 72 часа - к вероятности 96%.

Таким образом, вероятность наличия хотя бы одной битовой ошибки в 4 гигабайтах памяти на уровне моря на планете Земля за 72 часа составляет более 95%.

Я не буду смеяться, когда в следующий раз коллега скажет "космический луч", когда мы не сможем определить причину крушения ...

Вы можете загрузить компьютер с помощью memtest86 + и запустите проверку на ночь. Вот как я нахожу проблемы.

Да, я видел, как карты памяти выходили из строя, когда они выходили из строя только при одном конкретном шаблоне записи в память. BIOS компьютера не обнаружил проблему, но memtest86 обнаружил ее во время ночного прогона.

Я видел, как две палки оперативной памяти выходили из строя из примерно пятидесяти компьютеров, которые я использовал за последние десять лет. Бывает, но не часто.

Возможно, вы захотите взглянуть на это исследование google :

В среднем каждый третий сервер Google сталкивался с исправляемой ошибкой памяти каждый год, а каждый сотый - с неисправимой ошибкой.

Но они говорят о ОЗУ с ECC, а не о вашей повседневной пользовательской ОЗУ.

Я видел, как несколько модулей памяти полностью выходили из строя на действующих серверах за последнее десятилетие или около того, и немного большее количество отказов при выполнении записи Memtest86 в тестах на недавно поставленном оборудовании. Это серверные системы, почти все из которых будут иметь память ECC того или иного типа, поэтому я ожидал бы гораздо более частых проблем в клиентских системах с ОЗУ без исправления ошибок. У меня нет огромного набора образцов для работы, у нас есть пара десятков собственных серверов, и с точки зрения ввода в эксплуатацию клиентских систем я бы сказал, что работал над сотней или около того на уровне, на котором я ' Я действительно обращаю внимание на оперативную память.

На стороне клиента у меня немного больше опыта в масштабе предприятия - я был старшим инженером в группе, управляющей ПК конечных пользователей 50 тыс. В течение нескольких лет, и мы никогда не считали жесткие или программные сбои ОЗУ серьезной проблемой, конечно, это не так. то, что влияет на любой измеримый процент систем. Нельзя сказать, что этого не было, просто я был бы очень удивлен, если бы эта проблема затронула> 1% настольных компьютеров и ноутбуков бизнес-класса. Некоторые конкретные модели будут демонстрировать действительно высокую частоту отказов, связанных с контролем качества сборки, первая партия IBM Thinkpad T30 имела проблему со вторым слотом DIMM, что привело к тому, что нам пришлось ремонтировать \ заменять пару тысяч машин за один раз.

это сообщение в блоге Ларри Остермана из Microsoft из 2005 года может дать возможное объяснение некоторым из них - его анализ некоторых странных ошибок, обнаруженных в довольно большом наборе данных, который поступает из отчетов об ошибках Windows, показывает, что многие из этих странных проблем вызваны разгоном. Если значительное количество ваших конечных пользователей, вероятно, будет использовать разогнанный комплект потребительского уровня, это может быть связано с вашими ошибками.

Есть ли у вас возможность использовать «зеркальную память» в вашей системе - которая сообщит вам, есть ли у вас проблемы с памятью или нет - при наличии этого НАМНОГО меньше шансов, что какие-либо ошибки связаны с проблемами с физической памятью.

Если вы используете Linux:

Если вы не хотите перезагружаться в memtest86 + вы можете получить некоторые результаты, запустив memtester для тестирования памяти, чтобы определить, неисправна она или нет. Он действительно хорошо справляется с поиском нерегулярных неисправностей, а также недетерминированных неисправностей. Он имеет несколько тестов для определения границы памяти и предоставляет подробный отчет об обнаруженных неисправностях, выполненных тестах и ​​времени, затраченном на поиск неисправностей в компьютере. Нет необходимости перезагружать, вы можете запустить его в работающей системе Linux.

Я не нашел ссылки на приложение, но вот информация о пакете debian: