Я построил себе NAS на базе Linux. Он имеет несколько дисков разного размера и возраста в конфигурации LVM с объемом данных 800 ГБ или около того. Данные обслуживаются с помощью простого сервера самбы.
Это работало безупречно, но после его физического перемещения возникла странная ошибка: всякий раз, когда я делаю что-то на сервере, чтобы вызвать активность диска, вся машина зависает. жесткий. Это приводит к уничтожению любых открытых сетевых подключений к устройству и, как правило, к тому, что он становится бесполезным.
Если я выйду из машины на несколько минут, кажется, что она снова вернется в норму, но, очевидно, это не совсем решение.
В системном журнале или журналах ядра нет сообщений об ошибках или предупреждениях. Если я включу машину и оставлю ее, она проработает несколько дней без блокировки. После этого я прекратил тестирование.
Он не зависает мгновенно - очевидно, он не зависает во время загрузки, и я обычно могу войти в систему через SSH и начать копаться в нескольких файлах журнала в течение нескольких минут, прежде чем он умрет.
У меня вопрос:
Какие диагностические тесты я могу запустить, чтобы определить причину?
Типичный способ отладки такого рода проблем - это установка ядра отладки для вывода на com-порт. Вы подключаете к порту другой компьютер и читаете логи. Таким образом, вы сможете узнать, что происходит, когда система зависает. Но похоже, что это какая-то проблема с драйвером / оборудованием, и ее очень сложно отладить.