У меня один сервер с WDC WD3202ABYS ... Есть 100 виртуальных хостов. Сервер работает около 5 лет, и за это время я поменял 4 диска. Все по той же причине: ошибка sata. Последний:
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:60:57:7b:b6/00:01:06:00:00/e0 tag 0 dma 180224 out
res 51/10:60:57:7b:b6/10:01:06:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
Add. Sense: Recorded entity not found
Descriptor sense data with sense descriptors (in hex):
72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00
06 b6 7b 57
end_request: I/O error, dev sdb, sector 112622423
Buffer I/O error on device dm-8, logical block 14077747
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077748
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077749
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077750
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077751
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077756
lost page write due to I/O error on dm-8
ata2: EH complete
SCSI device sdb: 625142448 512-byte hdwr sectors (320073 MB)
sdb: Write Protect is off
sdb: Mode Sense: 00 3a 00 00
SCSI device sdb: drive cache: write back
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:90:17:30:b7/00:02:08:00:00/e0 tag 0 dma 335872 out
res 51/10:90:17:30:b7/10:02:08:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
Add. Sense: Recorded entity not found
Descriptor sense data with sense descriptors (in hex):
72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00
08 b7 30 17
end_request: I/O error, dev sdb, sector 146223127
printk: 34 messages suppressed.
Buffer I/O error on device dm-8, logical block 18277835
Похоже какая-то программная ошибка ...
но вскоре после этого (возможно, когда я запустил fsck) следующая ошибка:
EXT3-fs error (device dm-8): ext3_put_super: Couldn't clean up the journal
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/01:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x1 (device error)
ata2.00: status: { DRDY ERR }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
Возможно ли, что эти ошибки тоже "программные" ... Я имею в виду, что этому жесткому диску всего 9000 часов ... где нет лишней нагрузки на жесткий диск ... температура 29 по Цельсию ... Нужно ли заменять жесткий диск? или проверить диск достаточно?
EXT3-fs error (device dm-8): ext3_put_super: Couldn't clean up the journal
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/01:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x1 (device error)
ata2.00: status: { DRDY ERR }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
Как узнать причину?
Вот ошибки от смарта:
Error 36 occurred at disk power-on lifetime: 9160 hours (381 days + 16 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 22 09 80 e3 Error: UNC at LBA = 0x03800922 = 58722594
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 08 1f 09 80 03 0a 47d+13:38:13.534 READ DMA
ec 00 00 00 00 00 00 0a 47d+13:38:13.530 IDENTIFY DEVICE
ef 03 46 00 00 00 00 0a 47d+13:38:13.528 SET FEATURES [Set transfer mode]
Хорошо. Возможен ли такой сценарий: 1. Диск был на 9000 без fsck. 2. Есть ошибки 3. В dmesg запустились ошибки типа:
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:60:57:7b:b6/00:01:06:00:00/e0 tag 0 dma 180224 out
res 51/10:60:57:7b:b6/10:01:06:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
Add. Sense: Recorded entity not found
Если так .. не понимаю. Нужно ли менять диск каждый год? Просто чтобы предотвратить эту ошибку? У кого-то такая же проблема? Не только с одним диском ...
По моему опыту, ошибки, которые вы видите, на самом деле являются аппаратными ошибками, отраженными в программном обеспечении. Сообщение «потерянная страница при записи из-за ошибки ввода-вывода» - это сообщение, которое я видел с неисправными жесткими дисками, и оно ведет себя аналогично тому, как вы описываете при попытке выполнить fsck. Это почти определенно настоящая аппаратная неисправность.
Вы должны проверить вывод smartctl, чтобы узнать, что в нем может быть проблемой.
smartctl --attributes /dev/sdb
Результат будет примерно таким:
=== START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 200 200 051 Pre-fail Always - 0 3 Spin_Up_Time 0x0003 212 186 021 Pre-fail Always - 4358 4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 97 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 200 200 051 Pre-fail Always - 0 9 Power_On_Hours 0x0032 066 066 000 Old_age Always - 25420 10 Spin_Retry_Count 0x0013 100 253 051 Pre-fail Always - 0 11 Calibration_Retry_Count 0x0013 100 253 051 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 86 194 Temperature_Celsius 0x0022 104 001 000 Old_age Always - 46 196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0 197 Current_Pending_Sector 0x0012 200 200 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 200 200 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0009 200 200 051 Pre-fail Offline - 0
Результат может быть загадочным, но я бы обратил особое внимание на Reallocated_Sector_Ct, поскольку он говорит вам, что HD имеет для известных поврежденных секторов. Команда smartctl -a предоставит намного больше данных. На плохом HD, который у меня был некоторое время назад, внизу этого вывода находится «Журнал ошибок SMART», в котором было несколько записей.
У вас была неисправимая ошибка чтения.
Error: UNC at LBA = 0x03800922 = 58722594
Данные, которые были в этом блоке, теперь потеряны.
Вам следует:
У вас НЕТ ИЗВИНЕНИЯ, чтобы не использовать RAID (особенно, если вы размещаете веб-сайт для клиентов!) - ОС не такая большая, вам не нужен выделенный диск для нее в системе с двумя дисками.
Вы используете RAID-контроллер? Какой контроллер вы используете?
Одна из вещей (которая одновременно разочаровывает и поучительно) - это растущая сегментация, которую производители жестких дисков вводят на рынок SATA. Теперь есть диски для «малого предприятия / использования RAID» и «использования для одного компьютера». Похоже, что SAS подталкивают к рынку «предприятий высокого класса».
Ваша модель № - это серия накопителей WD RE3, предназначенная для настройки RAID. Мне сказали, что это означает, помимо прочего), что диск «откажется» раньше (т.е. в течение 3-4 секунд) при попытке исправить ошибки вместо того, чтобы пытаться снова и снова в течение более длительного периода времени. Если вы откажетесь раньше, то об ошибке будет сообщено RAID-контроллеру, чтобы он мог использовать другой диск для восстановления. Если вместо этого диск будет ждать дольше, RAID-контроллер выбьет диск из массива за то, что он не отвечает.
Неудачи должны по-прежнему быть редкостью, и не раз в год. Возможно, это еще один аспект вашей установки? (Однажды у меня была неприятная драка с кабелем SATA, теперь он установлен над моей дверью в качестве предупреждения другим кабелям ...)
У меня был очень плохой опыт работы с приводами Western Digital. Более половины моих дисков пришлось заменить по гарантии из-за полного отказа или поврежденных секторов.
После покупки только дисков WD около 8 лет я больше не хочу тратить на них деньги. Я понятия не имею, какому накопителю WD я могу доверять; мой опыт пока говорит «ни один из них».
Вы 4 раза заменяли оригинальный привод; вы купили все пять дисков одновременно? Купить новую, чтобы заменить каждую, когда она вышла из строя? Вернуть привод по гарантии для замены? Как и когда вы приобрели эти пять приводов и какие это были модели? По моему опыту, партии дисков WD часто бывают плохими и выходят из строя одновременно.