Заметив высокую нагрузку на наш виртуальный корневой сервер (2 х 1 ТБ подмножества RAID 1), я нашел эти сообщения в / var / log / messages (CentOS):
kernel: ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
kernel: ata3.00: failed command: WRITE DMA
kernel: ata3.00: cmd ca/00:10:e0:1b:01/00:00:00:00:00/e1 tag 18 dma 8192 out
kernel: res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
kernel: ata3.00: status: { DRDY }
kernel: ata3: hard resetting link
kernel: Clocksource tsc unstable (delta = -25761696872 ns)
kernel: ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
kernel: ata3.00: configured for UDMA/100
kernel: ata3.00: device reported invalid CHS sector 0
kernel: ata3: EH complete
Не мог бы кто-нибудь пролить свет на это? Это серьезная проблема с жестким диском или что-то еще? Как я могу проверить работоспособность виртуального жесткого диска (без возможности SMART)?
Диск не ответил вовремя и был сброшен ОС, это может означать многое, но два наиболее распространенных:
Эта конкретная ошибка без предыдущих ошибок по другим ошибкам или увеличенная задержка может указывать на ошибку носителя. Вы можете использовать smartctl, чтобы увидеть, есть ли ошибки CRC в интеллектуальных счетчиках.
Если это ошибка носителя, значит, диск в беде, поскольку команда, которая не удалась, является записью. Обычно запись не завершается с ошибкой носителя, и считывание происходит позже. Возможно, предыдущее чтение заняло слишком много времени, и запись стала жертвой тайм-аута. Я тоже видел это.
Вы также должны заметить, что связь была изменена на 1,5 Гбит / с, если это первый сбой, у вас есть проблема со связью, если это третий или более сбой такого рода, чем это указывает на плохое поведение, которое я видел в Linux, который пытается облегчить сброс с пониженной скоростью, даже если сбой вызван не проблемой связи, а ошибкой носителя.
Пункты действий: