В настоящее время мы используем GFS2 для совместного использования SAN LUN между 3 серверами. Однако из-за проблемы с функциональностью программного обеспечения поставщика, которое мы используем, в настоящее время у нас отключен том на двух из двух ящиков, и вместо этого мы экспортируем файловую систему GFS2 через NFS из первого (программное обеспечение требует некоторых странных механизмов блокировки, которых нет в GFS2. t поддержка).
По состоянию на это утро NFS больше не могла читать / писать на том с любого из серверов, включая сервер NFS. Затем я попытался проверить нормальное монтирование (каталог, который экспортируется на сервере NFS) и получил странную ошибку ввода / вывода, просто пытаясь вставить в него компакт-диск. Когда я попытался запустить multipath, я получил ошибку DM, однако multipath -l работал нормально. Я попытался размонтировать том GFS2, и CLI завис. Я запустил init 0, который убил большинство сервисов, но затем завершение работы оказалось зависшим. Я вошел в систему через внеполосный доступ (HP ILO) и увидел, что завершение работы зависло, пытаясь размонтировать тома GFS2.
Моей главной задачей было вернуть коробку обратно в онлайн, поэтому примерно через 5 минут ожидания я сделал полный сброс. Сейчас я пытаюсь понять, что пошло не так. Какие журналы следует исследовать? Я никогда раньше не сталкивался с подобными проблемами SAN. SAN подключается через 2 оптоволоконных соединения. Любая помощь будет оценена по достоинству. Кажется, теперь все работает и работает.
В Linux нет специальных журналов - обычно используйте dmesg / syslog.
Для коммутаторов SAN способ доступа к журналам зависит от производителя (в Brocade -> ssh admin @ x -> errdump).
Для дискового хранилища SAN способ доступа к журналам зависит от поставщика (в LSI -> GUI -> Журнал событий -> отключить show_critical_only -> обновить).
Прежде всего, убедитесь, что у вас есть протокол ntp (или другая синхронизация времени) для коммутаторов SAN и хранилища SAN, иначе вы никогда не узнаете, какая ошибка является причиной, а какая следствием.
Определите наиболее вероятную причину, проверьте, как ваш multipath / GFS2 реагирует на случайное отключение кабеля FC.
Проверьте вторую вероятную причину, проверьте, как ваш multipath / GFS2 реагирует на случайное отключение контроллера дискового массива SAN.