Назад | Перейти на главную страницу

Dell PowerEdge R720 - поврежденный массив RAID

Заранее извиняюсь за длинный вопрос.

У нас есть Dell PowerEdge R720 сервер с:

Несколько дней назад мы получали ошибки при попытке доступа к файлам на большом разделе RAID 5. Мы перезагрузили сервер и получили сообщение о the raid controller has found a foriegn config. У нас было это раньше, и нам просто нужно было использовать утилиту настройки RAID от Dell, чтобы import foreign config на RAID. В прошлый раз это сработало, но на этот раз он начал проверять диск, и мы получили следующее:

FSCK has returned the following:

"/dev/sdb1 inode 364738 has a bad extended attribute block 7

/dev/sdb1 unexpected inconsistency run fsck manually (i.e without -a or -p options) 

MOUNTALL fsck /ourdatapartition [1019] terminated with status 4

MOUNTALL filesystem has errors /ourdatapartition

errors where found while checking the disk drive for /ourdatapartition

Press F to fix errors, I to Ignore or M for Manual Recovery"

Мы нажали F, чтобы попытаться исправить ошибки, но в итоге возникла ошибка:

Inode 275841084, i_blocks is 167080, should be 0. Fix? yes

Inode 275841141 has an invalid extend node (blk 2206761006, lblk 0)
Clear? yes

Inode 275841141, i_blocks is 227872, should be 0. Fix? yes

Inode 275842303 has an invalid extend node (blk 2206760975, lblk 0)
Clear? yes

....


Error storing directory block information (inode=275906766, block=0, num=2699516178):         Memory allocation failed

/dev/sdb1: ***** FILE SYSTEM WAS MODIFIED *****
e2fsck: aborted

/dev/sdb1: ***** FILE SYSTEM WAS MODIFIED *****
mountall: fsck /ourdatapartition [1286] terminated with status 9
mountall: Unrecoverable fsck error: /ourdatapartition

Мы заметили, что один из индикаторов привода совсем не горит, и подумали, что это могло быть неисправностью и быть проблемой. Мы заменили диск на запасной и снова попробовали «F» отремонтировать его, но по-прежнему получаем ту же ошибку, что и выше.

В утилите настройки RAID все диски отображаются как «подключенные» и «оптимальные».

У нас есть эти данные на другом реплицированном сервере, поэтому мы не беспокоимся о «восстановлении» чего-либо, мы просто хотим вернуть систему в оперативный режим как можно скорее.

У сервера 64 или 32 ГБ памяти, не могу вспомнить, как я могу, но в любом случае, с RAID 14 ТБ, я думаю, этого может быть недостаточно.

Спасибо

РЕДАКТИРОВАТЬ - Я проверил использование памяти во время работы fsck, как было предложено, и через 2 или 3 минуты это выглядело так, израсходовав почти всю память наших серверов:

Когда через 5 минут или около того произошла ошибка с ошибкой в ​​моем сообщении, память сразу же снова освободилась:

РЕДАКТИРОВАТЬ 2 - Я проверил плохие блоки sudo badblocks -nvs /dev/sdb1, но он вернулся с Pass completed, 0 bad blocks found. (0/0/0 errors)

Это действительно похоже на то, что файловая система закрыта. Поскольку у вас есть данные на другом сервере, и вам не нужно восстанавливать данные из старой файловой системы, вы должны иметь возможность newfs раздела для создания пустой файловой системы.

mkfs /dev/sdb1

и покончить с этим.