Назад | Перейти на главную страницу

Проблема узла HPC OSS с нечитаемой локальной ошибкой жесткого диска

У нас есть установка HPC с четырьмя серверами OSS (от OSS1 до OSS4) и двумя узлами MDS (от MDS1 до MDS2). Она работала до вчерашнего дня без каких-либо проблем. Сегодня утром я обнаружил, что OSS4 отключен. Я проверил журналы OSS3 и обнаружил, что он перешел в состояние ограждения. Я снова включил OSS4, теперь он работает.

В журналах OSS4 я увидел некоторую "нечитаемую" ошибку, как указано ниже.

Feb 26 04:24:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors 
Feb 26 04:54:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors 
Feb 26 05:24:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors 
Feb 26 05:54:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors 
Feb 26 06:24:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors 
Feb 26 06:54:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors 
Feb 26 07:24:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors

/dev/sda это локальный жесткий диск. Возможно ли, что из-за этой ошибки возникло ограждение узла? При запуске e2fsck решит эту проблему?

Прилагаю /var/log/messages OSS3 и OSS4, может ли кто-нибудь проанализировать файл журнала и любезно помочь мне, что делать?

hardware hpc

Этот диск сломанный. Надеюсь, это пара RAID1. Вытащите сломанный, вставьте новый, дайте повторной синхронизации.
Отправьте бюст обратно производителю для RMA.

Надеюсь, ваша система имеет мониторинг, который уже предупредил поставщика о проблеме, и они, возможно, даже уже отправили вам новый диск.

В любом случае, это запутано. Замени это.