Я не профессиональный системный администратор, но так как я не смог найти ответы на свой конкретный случай после некоторого исследования, я надеялся, что здесь мне помогут. Наш сервер использует P222 - массив контроллеров HP Smart в конфигурации RAID1. Я считаю, что некоторые секторы на одном из физических жестких дисков вышли из строя. Я использовал hpacucli
инструмент, и результат выглядел так: -
$ hpacucli ctrl all show config
Smart Array P222 in Slot 1 (sn: PDSXH0ARH5I0SW)
array A (SATA, Unused Space: 0 MB)
logicaldrive 1 (2.7 TB, RAID 1, Ready for Rebuild)
physicaldrive 2I:1:1 (port 2I:box 1:bay 1, SATA, 3 TB, OK)
physicaldrive 2I:1:2 (port 2I:box 1:bay 2, SATA, 3 TB, Predictive Failure)
Я снова запустил тот же инструмент несколько раз, чтобы проверить статус, и в какой-то момент я заметил, что «Predictive Failure» был заменен на «Rebuilding 1%», который позже увеличился до 2%. Не думаю, что я сделал что-то, чтобы начать восстановление. В любом случае, я дал ему поработать и через некоторое время проверил статус, после чего он вернулся к «Прогнозируемый сбой».
При запуске длинного и короткого тестов smartctl - в журналах самотестирования сообщалось: -
=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed: read failure 90% 14368 334201968
# 2 Short offline Completed: read failure 90% 14367 625082211
Мы запускаем экземпляр MySQL на этом сервере, и он по-прежнему не начинает жаловаться на ошибку чтения, которая указывает на то, что это может быть связано с отказом жесткого диска / плохим сектором, следовательно, с инструментами, использованными выше. У меня возникла пара вопросов: -
Мы рады сообщить о любых дополнительных деталях, которые могут потребоваться для диагностики / исправления этого
РЕДАКТИРОВАТЬ 1: По запросу журналы ошибок MySQL, например: -
150824 10:27:00 InnoDB: Completed initialization of buffer pool
150824 10:27:00 InnoDB: highest supported file format is Barracuda.
InnoDB: The log sequence number in ibdata files does not match
InnoDB: the log sequence number in the ib_logfiles!
150824 10:27:00 InnoDB: Database was not shut down normally!
InnoDB: Starting crash recovery.
InnoDB: Reading tablespace information from the .ibd files...
InnoDB: Restoring possible half-written data pages from the doublewrite
InnoDB: buffer...
150824 10:27:00 InnoDB: Waiting for the background threads to start
150824 10:27:01 InnoDB: 5.5.35 started; log sequence number 2723867081864
150824 10:27:01 [Note] Server hostname (bind-address): <ip and port here>;
150824 10:27:01 [Note] - <ip here> resolves to <ip here>;
150824 10:27:01 [Note] Server socket created on IP: <ip here>.
InnoDB: Error: tried to read 16384 bytes at offset 70 1898921984.
InnoDB: Was only able to read -1.
150824 10:27:01 InnoDB: Operating system error number 5 in a file operation.
InnoDB: Error number 5 means 'Input/output error'.
InnoDB: Some operating system error numbers are described at
InnoDB: http://dev.mysql.com/doc/refman/5.5/en/operating-system-error-codes.html
InnoDB: File operation call: 'read'.
InnoDB: Cannot continue operation.
РЕДАКТИРОВАТЬ 2: на основе комментария https://serverfault.com/a/716471/306555, Я открыл билет на замену диска и заменил его, а RAID перестроил. Вывод hpacucli выглядит так: -
physicaldrive 2I:1:1 (port 2I:box 1:bay 1, SATA, 3 TB, OK)
physicaldrive 2I:1:2 (port 2I:box 1:bay 2, SATA, 3 TB, OK)
Так что прогнозируемый отказ больше не существует. Однако MySQL продолжал выдавать мне ошибки чтения, поэтому я снова провел длинный и короткий тест smartctl. Пока короткий тест прошел, длинный завершился с ошибкой чтения: -
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed: read failure 90% 14393 625116232
# 2 Short offline Completed without error 00% 14392 -
Я также проверил системный журнал и заметил, что каждый раз, когда MySQL пытается запустить, в системном журнале появляется эта ошибка
Aug 25 14:23:41 kernel: [ 1603.911185] sd 6:0:0:1: [sda] Unhandled sense code
Aug 25 14:23:41 kernel: [ 1603.911186] sd 6:0:0:1: [sda] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
Aug 25 14:23:41 kernel: [ 1603.911188] sd 6:0:0:1: [sda] Sense Key : Medium Error [current]
Aug 25 14:23:41 kernel: [ 1603.911190] sd 6:0:0:1: [sda] Add. Sense: Unrecovered read error
Aug 25 14:23:41 kernel: [ 1603.911192] sd 6:0:0:1: [sda] CDB: Read(10): 28 00 46 a2 d5 a0 00 00 08 00
Что бы это означало? (похоже, что это плохой сектор на диске?) Если это так, есть ли способ исправить это?
Ладно. Это длинный вопрос, но на него вы получите короткий ответ:
Если вы видите «Predictive Failure» или «Failed», замените диск.
Оба эти условия действительны для получения заявки на поддержку и / или замены деталей по гарантии от HP.
"Predictive Failure" включает в себя S.M.A.R.T. данные, а также другие эвристики для определения состояния диска. Но детали особого значения не имеют. Планирую заменить привод.
Тот факт, что вы видите влияние на уровне приложения, является еще одним признаком того, что правильным курсом действий является замена диска. Это легко сделать ... даже если это диск SATA, это часть HP, поэтому на него распространяется гарантия (вероятно, 1 год, но он привязан к серийному номеру вашего сервера).
Позвоните в HP ...
Вы используете жесткие диски HP? Или нормальные потребительские диски? Есть ли на дисках функция восстановления после ошибок, ограниченная по времени?
В противном случае диск может заблокировать контроллер, пытаясь прочитать поврежденный сектор. Для отказа диска потребуется много времени, поэтому чтение не будет выполнено. Контроллер рейда не имеет возможности попробовать другой диск, потому что он зависает, ожидая, пока первый диск не решит, что он неисправен.
Это поведение также приводит к временному выпадению дисков из рейда, что объясняет перестройку.
Это должно применяться только в том случае, если вы используете диски сторонних производителей - поддерживаемые диски запрограммированы так, чтобы быстро отказаться и позволить контроллеру рейда обработать ошибку.