У меня проблема, когда после того, как сервер проработал какое-то время (~ неделя / несколько дней), сервер начнет считывать поврежденные данные. Например, когда я запускаю sha1sum файла после новой загрузки, он остается прежним. Однако через некоторое время я начну получать ошибки сегментации, и с тех пор всякий раз, когда я читаю этот файл, я получаю другой sha1sum.
Я проверил S.M.A.R.T длинными тестами и выполнил расширенный memtest86 + (12 проходов)
Мой lspci выглядит следующим образом:
00:00.0 Host bridge: Advanced Micro Devices [AMD] RS780 Host Bridge 00:01.0 PCI bridge: Advanced Micro Devices [AMD] RS780 PCI to PCI bridge (int gfx) 00:06.0 PCI bridge: Advanced Micro Devices [AMD] RS780 PCI to PCI bridge (PCIE port 2) 00:07.0 PCI bridge: Advanced Micro Devices [AMD] RS780 PCI to PCI bridge (PCIE port 3) 00:11.0 SATA controller: ATI Technologies Inc SB700/SB800 SATA Controller [AHCI mode] 00:12.0 USB Controller: ATI Technologies Inc SB700/SB800 USB OHCI0 Controller 00:12.1 USB Controller: ATI Technologies Inc SB700 USB OHCI1 Controller 00:12.2 USB Controller: ATI Technologies Inc SB700/SB800 USB EHCI Controller 00:13.0 USB Controller: ATI Technologies Inc SB700/SB800 USB OHCI0 Controller 00:13.1 USB Controller: ATI Technologies Inc SB700 USB OHCI1 Controller 00:13.2 USB Controller: ATI Technologies Inc SB700/SB800 USB EHCI Controller 00:14.0 SMBus: ATI Technologies Inc SBx00 SMBus Controller (rev 3c) 00:14.1 IDE interface: ATI Technologies Inc SB700/SB800 IDE Controller 00:14.3 ISA bridge: ATI Technologies Inc SB700/SB800 LPC host controller 00:14.4 PCI bridge: ATI Technologies Inc SBx00 PCI to PCI Bridge 00:14.5 USB Controller: ATI Technologies Inc SB700/SB800 USB OHCI2 Controller 00:18.0 Host bridge: Advanced Micro Devices [AMD] K10 [Opteron, Athlon64, Sempron] HyperTransport Configuration 00:18.1 Host bridge: Advanced Micro Devices [AMD] K10 [Opteron, Athlon64, Sempron] Address Map 00:18.2 Host bridge: Advanced Micro Devices [AMD] K10 [Opteron, Athlon64, Sempron] DRAM Controller 00:18.3 Host bridge: Advanced Micro Devices [AMD] K10 [Opteron, Athlon64, Sempron] Miscellaneous Control 00:18.4 Host bridge: Advanced Micro Devices [AMD] K10 [Opteron, Athlon64, Sempron] Link Control 01:05.0 VGA compatible controller: ATI Technologies Inc Radeon HD 3300 Graphics 01:05.1 Audio device: ATI Technologies Inc RS780 Azalia controller 02:00.0 Ethernet controller: Atheros Communications Atheros AR8121/AR8113/AR8114 PCI-E Ethernet Controller (rev b0) 03:00.0 FireWire (IEEE 1394): VIA Technologies, Inc. Device 3403
Мне действительно нужна помощь в этом, вы знаете, что могло вызвать это? Это действительно расстраивает меня, поскольку кажется, что он срабатывает совершенно случайно и не исчезнет, пока я не перезагружусь. Я также использую KVM для виртуализации, а также MD для программного RAID на этом сервере, а процессор - Phenom II X4 965. Я не верю, что это программный рейд, однако это влияет на файлы, также размещенные на разделах, не связанных с рейдом, поэтому Я не знаю.
Обновить 21 июня 10 Хорошо, только что заменили материнскую плату. Все еще та же ошибка. Ошибок ЦП я не обнаружил; все диски сообщают нормально со смарт-тестом. Кто-нибудь вообще знает, что это может быть? Я вырываю свои волосы здесь.
Обновить 22 июня 10 Итак, я проверил логи и попробовал другую файловую систему, все то же самое. Кстати, это все тоже находится на хост-виртуальной машине.
Мои инстинкты подсказывают мне, что это аппаратная проблема, возможно, связанная с температурой (поскольку она проявляется после некоторого времени работы). Скорее всего, у вас проблема с южным мостом или сопутствующим оборудованием.
Подумайте о проведении обширных тестов транзакций на южном мосту или просто замените материнскую плату.
То, что ваша ОС остается стабильной, но у вас есть случайные ошибки ввода-вывода, как правило, исключает использование ЦП / памяти, поскольку ошибки в них, как правило, приводят к сбою ОС и сгоранию вместе с другим программным обеспечением. Но большая часть ядра читается с диска при загрузке и никогда не выгружается, поэтому система Linux может быть на удивление стабильной, даже если она не может правильно читать с диска.
Я согласен с @pehrs в том, что стоит изучить тепловой аспект этого, поскольку со временем проблема накапливается. Какой у вас сервер? В наши дни большинство стоечных систем оснащено большим количеством датчиков, которые можно использовать для мониторинга состояния оборудования. Проверять, выписываться lm-сенсоры. Если это сервер Dell, Dell OMSA пакет может быть полезным. Я уверен, что и у других крупных игроков есть свои собственные пакеты.
Я мог бы также предложить несколько других идей - они действительно не соответствуют описанному вами сценарию проблемы, возникающей только через некоторое время, но они не могут повредить.
Что касается журналов ошибок, получаете ли вы какие-либо сообщения об ошибках в журналах с диска или подсистемы RAID? Или в dmesg? Linux Программный RAID HOTWO содержит информацию о типах ошибок, которые вы можете найти. Что-то вроде неисправного кабеля может не отображаться при самотестировании накопителя SMART, но вы обязательно увидите в журнале сообщения об ошибках.
Какая конфигурация RAID? Что-нибудь в / proc / mdstat? Если (например) на сервере было 3 диска RAID 5 и один из дисков был неисправен, это могло вызвать проблемы.
Кроме того, проверьте версию прошивки для вашей материнской платы / карты SCSI и т. Д. И посмотрите, обновлена ли она и есть ли какие-либо ошибки, связанные с дисковым вводом-выводом, которые были исправлены.
Повреждение происходит на самом хосте или на гостевых машинах? В qemu-kvm есть известная ошибка, которая приводит к повреждению данных на больших виртуальных дисках (см. https://bugs.launchpad.net/ubuntu/+source/qemu-kvm/+bug/574665 например)