Заранее извиняюсь за длинный вопрос.
У нас есть Dell PowerEdge R720
сервер с:
Ubuntu Server 12.04
)3TB SATA drives in RAID 5
для data
Несколько дней назад мы получали ошибки при попытке доступа к файлам на большом разделе RAID 5. Мы перезагрузили сервер и получили сообщение о the raid controller has found a foriegn config
. У нас было это раньше, и нам просто нужно было использовать утилиту настройки RAID от Dell, чтобы import foreign config
на RAID. В прошлый раз это сработало, но на этот раз он начал проверять диск, и мы получили следующее:
FSCK has returned the following:
"/dev/sdb1 inode 364738 has a bad extended attribute block 7
/dev/sdb1 unexpected inconsistency run fsck manually (i.e without -a or -p options)
MOUNTALL fsck /ourdatapartition [1019] terminated with status 4
MOUNTALL filesystem has errors /ourdatapartition
errors where found while checking the disk drive for /ourdatapartition
Press F to fix errors, I to Ignore or M for Manual Recovery"
Мы нажали F, чтобы попытаться исправить ошибки, но в итоге возникла ошибка:
Inode 275841084, i_blocks is 167080, should be 0. Fix? yes
Inode 275841141 has an invalid extend node (blk 2206761006, lblk 0)
Clear? yes
Inode 275841141, i_blocks is 227872, should be 0. Fix? yes
Inode 275842303 has an invalid extend node (blk 2206760975, lblk 0)
Clear? yes
....
Error storing directory block information (inode=275906766, block=0, num=2699516178): Memory allocation failed
/dev/sdb1: ***** FILE SYSTEM WAS MODIFIED *****
e2fsck: aborted
/dev/sdb1: ***** FILE SYSTEM WAS MODIFIED *****
mountall: fsck /ourdatapartition [1286] terminated with status 9
mountall: Unrecoverable fsck error: /ourdatapartition
Мы заметили, что один из индикаторов привода совсем не горит, и подумали, что это могло быть неисправностью и быть проблемой. Мы заменили диск на запасной и снова попробовали «F» отремонтировать его, но по-прежнему получаем ту же ошибку, что и выше.
В утилите настройки RAID все диски отображаются как «подключенные» и «оптимальные».
У нас есть эти данные на другом реплицированном сервере, поэтому мы не беспокоимся о «восстановлении» чего-либо, мы просто хотим вернуть систему в оперативный режим как можно скорее.
У сервера 64 или 32 ГБ памяти, не могу вспомнить, как я могу, но в любом случае, с RAID 14 ТБ, я думаю, этого может быть недостаточно.
Спасибо
РЕДАКТИРОВАТЬ - Я проверил использование памяти во время работы fsck, как было предложено, и через 2 или 3 минуты это выглядело так, израсходовав почти всю память наших серверов:
Когда через 5 минут или около того произошла ошибка с ошибкой в моем сообщении, память сразу же снова освободилась:
РЕДАКТИРОВАТЬ 2 - Я проверил плохие блоки sudo badblocks -nvs /dev/sdb1
, но он вернулся с Pass completed, 0 bad blocks found. (0/0/0 errors)
Это действительно похоже на то, что файловая система закрыта. Поскольку у вас есть данные на другом сервере, и вам не нужно восстанавливать данные из старой файловой системы, вы должны иметь возможность newfs раздела для создания пустой файловой системы.
mkfs /dev/sdb1
и покончить с этим.