Время от времени мы сталкиваемся с ошибками ввода / вывода на одном из наших дисков.
Наш сервер (DELL PowerEdge R720, Ubuntu 14.04) использует Perc H710 Raid-контроллер, и диск, на котором возникает ошибка, является Dell 600 ГБ SAS 6 Гбит / с 15k 3,5 дюйма диск.
Мы всегда можем исправить ошибки, используя fsck.ext4
, но мы не знаем, что могло бы их вызвать.
Мы обновили прошивку сервера до последней версии и провели все тесты, которые только могли придумать.
Что еще мы могли сделать, чтобы найти источник проблемы?
РЕДАКТИРОВАТЬ:
Мы связались с DELL около недели назад, и после того, как они проинструктировали меня, как запустить несколько тестов, они пришли к выводу, что с сервером все в порядке, и что ничего необычного в тестах не обнаружено.
Не удалось включить поддержку SMART для устройства:
$ sudo smartctl -a /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-55-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Vendor: DELL
Product: PERC H710
Revision: 3.13
User Capacity: 1,199,101,181,952 bytes [1.19 TB]
Logical block size: 512 bytes
Logical Unit id: 0x6b8ca3a0f210dc0019eead8c1111fb0a
Serial number: 000afb11118cadee1900dc10f2a0a38c
Device type: disk
Local Time is: Wed Jul 8 10:47:35 2015 IDT
SMART support is: Unavailable - device lacks SMART capability.
=== START OF READ SMART DATA SECTION ===
Error Counter logging not supported
Device does not support Self Test logging
и я попробовал:
$ sudo smartctl -s on /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-55-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF ENABLE/DISABLE COMMANDS SECTION ===
unable to fetch IEC (SMART) mode page [unsupported field in scsi command]
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
Кроме того, я не уверен, что с этим делать (поиск в Google не помог):
$ sudo hdparm -I /dev/sda
/dev/sda:
SG_IO: bad/missing sense data, sb[]: 70 00 05 00 00 00 00 0d 00 00 00 00 20 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
ATA device, with non-removable media
Standards:
Likely used: 1
Configuration:
Logical max current
cylinders 0 0
heads 0 0
sectors/track 0 0
--
Logical/Physical Sector size: 512 bytes
device size with M = 1024*1024: 0 MBytes
device size with M = 1000*1000: 0 MBytes
cache/buffer size = unknown
Capabilities:
IORDY not likely
Cannot perform double-word IO
R/W multiple sector transfer: not supported
DMA: not supported
PIO: pio0
Любые советы приветствуются!
У вас есть один диск в RAID, который работает некорректно и время от времени выдает ошибки? Похоже на аппаратную проблему, которая, вероятно, станет еще хуже. Вам следует подумать о замене диска. Да, это дорого, но сколько стоит ваше время и насколько плохо было бы, если бы вся поездка пошла на юг в неподходящий момент?
Можно ли просмотреть информацию SMART для отдельных дисков через Дисковую утилиту? Посмотрите на предварительные проверки и посмотрите, не выделяется ли что-нибудь. Это укажет на неисправное физическое устройство.
Является ли диск, вызывающий ошибки, в группе RAID с другими дисками? В противном случае это может быть файловая система, а не диск или, в зависимости от компоновки, контроллер (плохой кеш, несоответствие прошивки). Я бы также проверил версии прошивки на диске и контроллере, чтобы увидеть, не устарели ли они.
Есть ли у вас на этом контроллере другие диски такого же типа? У них такая же прошивка и тд?
Какие конкретные ошибки вы получаете?
Я бы рекомендовал попытаться получить дополнительную информацию от контроллера PERC. В Ubuntu вы не сможете установить Dell OMSA для мониторинга и управления.
Вы могли бы установить MegaCLI и используйте его для экспорта журнала контроллера, чтобы получить дополнительную информацию о происходящих событиях.
По какой причине вы не обратились в службу поддержки Dell? Эта модель сервера кажется достаточно новой, я бы ожидал, что она все еще находится на гарантии ...