Я запускаю e2fsck на одном из разделов моего диска (ext4), но, похоже, это займет вечность. Он уже работает почти 10 часов или около того, и все еще составляет 42%. Размер раздела составляет около 800 ГБ, а общий размер диска (на котором расположен раздел) составляет около 1 ТБ.
Запуск iostat показывает следующий результат:
iostat -xzhcd /dev/sdc 2 5
Linux 3.13.0-37-generic (divick-desktop) Monday 03 April 2017 _x86_64_ (2 CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
2.97 0.00 0.41 50.22 0.00 46.40
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sdc
49.12 0.00 6.87 0.00 223.95 0.02 65.20 1.01 147.22 145.40 4611.03 143.47 98.57
avg-cpu: %user %nice %system %iowait %steal %idle
4.25 0.00 9.63 71.67 0.00 14.45
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sdc
0.00 0.00 1.50 0.00 6.00 0.00 8.00 1.00 592.00 592.00 0.00 665.33 99.80
avg-cpu: %user %nice %system %iowait %steal %idle
2.71 0.00 6.63 59.34 0.00 31.33
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sdc
0.00 0.00 1.50 0.00 6.00 0.00 8.00 1.00 592.00 592.00 0.00 666.67 100.00
avg-cpu: %user %nice %system %iowait %steal %idle
3.76 0.00 9.25 56.94 0.00 30.06
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sdc
0.00 0.00 3.50 0.00 14.00 0.00 8.00 1.00 508.00 508.00 0.00 285.71 100.00
avg-cpu: %user %nice %system %iowait %steal %idle
3.39 0.00 7.63 73.73 0.00 15.25
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sdc
0.00 0.00 1.50 0.00 6.00 0.00 8.00 1.00 593.33 593.33 0.00 666.67 100.00
Почему время r_await такое большое (~ 0,5 мс)? Это сигнал о выходе из строя диска или по другой причине?
Интерпретация результата выполнения смарт-тестов на диске кажется немного запутанной. В выходных данных интеллектуального теста я вижу следующие строки:
Результат теста SMART для самооценки общего состояния здоровья: ПРОШЕЛ
Но глядя на подробный вывод, я вижу:
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 192 192 051 Pre-fail Always - 13824
3 Spin_Up_Time 0x0027 119 111 021 Pre-fail Always - 7008
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 515
5 Reallocated_Sector_Ct 0x0033 165 165 140 Pre-fail Always - 671
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 086 086 000 Old_age Always - 10561
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 511
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 182
193 Load_Cycle_Count 0x0032 128 128 000 Old_age Always - 218580
194 Temperature_Celsius 0x0022 101 080 000 Old_age Always - 46
196 Reallocated_Event_Count 0x0032 018 018 000 Old_age Always - 182
197 Current_Pending_Sector 0x0032 198 197 000 Old_age Always - 480
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 35
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 210
Я не понимаю, действительно ли диск выходит из строя.
Исходя из 13824 Raw_Read_Error_Rate выходных данных SMART, создается впечатление, что диск имеет сбойные запросы на чтение, что может вызвать высокие значения r_await и iowait в выходных данных sar. Скорее всего, накопитель долго обрабатывает запросы на чтение, которые затем завершаются ошибкой / прерываются по истечении времени ожидания. Я бы также проверил вывод dmesg на наличие ошибок драйвера / устройства для дальнейшего подтверждения.
Перечисленный вывод SMART, кажется, указывает на умирающий диск. В частности:
197 Current_Pending_Sector 0x0032 198 197 000 Old_age Always - 480
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 35
Когда «RAW_VALUE» одного или обоих из этих двух атрибутов не равно нулю, я бы рекомендовал немедленно заменить диск.
Во-первых, вы должны проверить, вызвана ли проблема e2fsck
или не. Вы можете сделать это, запустив top
команда.