Назад | Перейти на главную страницу

Сообщение об ошибке жесткого диска на виртуальном корневом сервере

Заметив высокую нагрузку на наш виртуальный корневой сервер (2 х 1 ТБ подмножества RAID 1), я нашел эти сообщения в / var / log / messages (CentOS):

kernel: ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
kernel: ata3.00: failed command: WRITE DMA
kernel: ata3.00: cmd ca/00:10:e0:1b:01/00:00:00:00:00/e1 tag 18 dma 8192 out
kernel:         res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
kernel: ata3.00: status: { DRDY }
kernel: ata3: hard resetting link
kernel: Clocksource tsc unstable (delta = -25761696872 ns)
kernel: ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
kernel: ata3.00: configured for UDMA/100
kernel: ata3.00: device reported invalid CHS sector 0
kernel: ata3: EH complete

Не мог бы кто-нибудь пролить свет на это? Это серьезная проблема с жестким диском или что-то еще? Как я могу проверить работоспособность виртуального жесткого диска (без возможности SMART)?

Диск не ответил вовремя и был сброшен ОС, это может означать многое, но два наиболее распространенных:

  1. Ошибка носителя - некоторые места на диске не могут быть прочитаны или записаны в
  2. Ошибки связи - Плохой кабель

Эта конкретная ошибка без предыдущих ошибок по другим ошибкам или увеличенная задержка может указывать на ошибку носителя. Вы можете использовать smartctl, чтобы увидеть, есть ли ошибки CRC в интеллектуальных счетчиках.

Если это ошибка носителя, значит, диск в беде, поскольку команда, которая не удалась, является записью. Обычно запись не завершается с ошибкой носителя, и считывание происходит позже. Возможно, предыдущее чтение заняло слишком много времени, и запись стала жертвой тайм-аута. Я тоже видел это.

Вы также должны заметить, что связь была изменена на 1,5 Гбит / с, если это первый сбой, у вас есть проблема со связью, если это третий или более сбой такого рода, чем это указывает на плохое поведение, которое я видел в Linux, который пытается облегчить сброс с пониженной скоростью, даже если сбой вызван не проблемой связи, а ошибкой носителя.

Пункты действий:

  • Проверить смарт на наличие ошибок CRC
  • Проверьте, сколько ошибок у вас было в прошлом
  • Если вы хотите восстановить скорость 3 Гбит / с, перезагрузитесь
  • Проверьте, есть ли в ваших журналах сообщение «NCQ отключено из-за чрезмерных ошибок», это может объяснять замедление диска, но не саму проблему с диском.
  • Убедитесь, что у вас есть резервная копия, так как вполне может быть, что ваш диск выходит из строя