Я хотел бы следить за оперативной памятью двух Linux-систем (Ubuntu и Red Hat). Я понимаю, что могу запустить memtest86 из загрузки для диагностики плохой оперативной памяти. Но есть ли какие-либо решения для мониторинга оперативной памяти, пока система все еще работает. Я как бы представляю демона, который записывает и читает из случайной неиспользуемой памяти. Кто-нибудь видел что-то подобное раньше?
Большинство современных серверов любого разумного качества имеют модуль IPMI, который будет сообщать о плохой ОЗУ (обычно через сообщения SBE (однобитовая ошибка) из ОЗУ ECC). являются используя ECC RAM на ваших серверах, не так ли?). Модуль IPMI также отслеживает и сообщает о множестве других полезных вещей.
Вы можете контролировать модуль IPMI, используя различные системы мониторинга сети (если у вас есть сеть управления для сетевых адаптеров IPMI) или используя ipmitool
который доступен в большинстве систем Unix. Многие производители (например, Dell и IBM) также имеют специализированные инструменты, которые опрашивают модуль IPMI для онлайн-диагностики. За подробностями обращайтесь к поставщику оборудования.
Вот сценарий:
http://www.grons.nl/memtest.sh
Отсюда: http://web.archive.org/web/20080726104439/http://people.redhat.com/dledford/memtest.html
Похоже, что он несколько раз распаковывает копию ядра linux, чтобы исчерпать доступную память (я думаю, это можно изменить так, чтобы он проверял «хорошую часть» ОЗУ, но не всю), а затем проверяет распакованную копию для проверки целостности.
Умное использование простой утилиты.