Мне любопытно, есть ли какой-нибудь счетчик производительности, который будет регистрировать количество необходимых исправлений ECC, которые, возможно, можно было бы отследить как ранний индикатор сбоя памяти. Я предполагаю, что теоретически он будет доступен так же, как о сбоях страницы из tlb сообщается в ОС?
Приветствуются решения для Windows или FreeBSD и Linux.
Для Linux:
Установите mcelog, и он будет записывать все ошибки в /var/log/mcelog.log
Вы также можете посмотреть Linux sysfs, см. Соответствующую информацию в документации EDAC: https://www.kernel.org/doc/Documentation/edac.txt
Большая часть оборудования изначально обрабатывает это ведение журнала. Например, контроллер управления основной платой HP iLO регистрирует ошибки памяти ECC в свой интегрированный журнал управления.
Итак, общий ответ на общий вопрос: проверьте возможности и ресурсы вашей системы управления оборудованием.
Или прочтите эту страницу, в ней рассказывается об использовании EDAC ядра Linux для запроса контроллера памяти и приводятся несколько примеров сценариев: http://www.admin-magazine.com/Articles/Monitoring-Memory-Errors
больше / sys / devices / system / edac / mc / mc0 / ue_count