Назад | Перейти на главную страницу

Ну ... на моем сервере живет призрак

Всем привет и привет из Греции

У меня довольно необычная ситуация, и у меня заканчиваются идеи. У меня есть старый сервер (IBM x205 - P4 2.4Ghz, 3xSCSI 36gb), и около года назад я решил использовать его в качестве дополнительного контроллера домена, а также факсимильного и файлового сервера. Для этой задачи у меня была карта SATA Delock 70154 вместе с жесткими дисками 2x320 SATA II.

Примерно 3 недели назад все шло очень гладко. Я был в командировке, и когда я вернулся, мне сообщили, что сервер оказался замороженным. Ну, я считал, что это глюк, так как простое выключение / включение все исправляет. И снова две недели назад ситуация с замораживанием. Это стало подозрительно, но снова после отключения / включения все работало.

Он снова завис, и когда я его включил, появилось сообщение о том, что службы домена не могут запуститься из-за повреждения NTDS. Загрузка в безопасном режиме показала, что возникла проблема с SATA Raid (деградировала).

После долгих поисков я деградировал сервер, очистил Active Directory, вытащил оба жестких диска (один из них был действительно ПЛОХОЙ) и восстановил свои файлы (у меня были некоторые проблемы с тем, что Delock обрабатывает избыточный жесткий диск).

Прямо сейчас мой сервер ванильный простой, только то, что установлено на заводе. Здесь начинается самое интересное. Каждый день, когда я прихожу в офис, я нахожу именно эту машину мертвой, то есть полностью мертвой. Просто черный экран и больше ничего. Вентилятор ЦП работает, БП работает. Клавиатура и мышь мертвы (они также блокируют мой KVM), как и сеть. Машина МЕРТВА.

Я сильно его выключаю, а затем включаю. За 8 часов нахождения в офисе он работает либо на холостом ходу, либо на какой-то диагностике. Когда я выхожу из офиса, через какое-то время (может через 30 минут, может через 4 часа) машина умирает. Это информация, отображаемая в журнале событий.

"the previous shutdown at xx:xx:xx was unexpected"

Я пробовал следующее: Memtest: ничего не обнаружено Passmark burn в тесте: ничего не обнаружено Тщательное изучение журнала событий: ничего интересного, что я не вижу Установите параметр, чтобы не запускать автозапуск после сбоя, чтобы я мог видеть BSOD: ничего чтобы увидеть Схема питания настроена так, чтобы никогда не спать.

Я знаю, что есть много других инструментов, которые сильно нагружают такую ​​машину, как OCCT, но машина старая. Сегодня все же попробую. Одна идея - переформатировать его, но мне очень нравится выяснять, что вызывает это, потому что я могу добраться до ситуации, когда все работает какое-то время, а затем бах, однажды он снова умирает. Мне действительно нужна рука помощи, и каждое мнение / идея приветствуются. Я знаю, что очевидное решение - никогда не покидать офис, но у меня есть жизнь. Извините, сервер. :)

P.S Такая ситуация с умиранием машины продолжается около недели. Каждый день я настраивал либо RAID для восстановления, либо для копирования / восстановления файлов, и пока все работало

Похоже на очень старый сервер. Также звучит так, будто он умирает медленной и мучительной смертью. Есть причина, по которой большинство ИТ-отделов заменяют свое оборудование через определенный период времени. Причина в том, что поддержка старого оборудования стоит слишком дорого. Держу пари, что серверу у вас 6-8 лет. Избавиться от этого. Это принесет больше хлопот, чем того стоит. Вероятно, у вас плохая материнская плата или плохой процессор. Вы, вероятно, не сможете найти ни одного нового, поэтому вам придется покупать подержанные детали. С использованными частями вы не знаете, вносите ли вы новые проблемы на свой сервер. Как я уже сказал, просто избавься от этого. Это не стоит тех усилий / времени / денег, которые вы потратите на это.

Ну, я нашел призрака ... это заняло некоторое время, но в конце концов я его получил. Проблема была из-за протечки конденсаторов ... один из них решил, что пора перестать тратить мое время, и выскочил из него жидкости ... Так что, надеюсь, пришло время для чего-то нового .... :)

Если ему больше трех лет, выбросьте его, а если нет, воспользуйтесь гарантией и отремонтируйте.

Устранение неполадок оборудования предназначено для энтузиастов моддинга оборудования - для этого на этом уровне нет веского экономического обоснования. Даже самые простые ИТ-услуги должны основываться на надежном оборудовании, иначе услуга будет ненадежной.

Уменьшение энергопотребления более современного сервера x86 само по себе сделало бы покупку нового низкопроизводительного сервера действительной, если вы сделаете математику (если только ваша мощность каким-то образом не бесплатна).

Я попытаюсь сделать некоторую статистику использования процессора и памяти удаленно. Я тот человек, который дает еще один шанс старому оборудованию.

Итак, сделайте некоторую статистику, возможно, ваш процессор перегревается. Почистить радиатор, заменить термопасту и посмотреть.

HTH

Как я уже сказал в одном из комментариев, я согласен с тем, что интересно исправить проблему, избежать ненужного мусора и извлечь новые уроки на будущее.

Такой старый сервер по-прежнему может хорошо служить для менее важных задач, например, вы делаете это в качестве контроллера домена AD, возможно, использование его в качестве файлового сервера немного экстремально.

Мне очень пригодилось использование установочного компакт-диска OpenSUSE только для тестирования диска и оперативной памяти. Проверить оборудование на наличие ошибок действительно важно.

Тогда я бы действительно подумал о том, чтобы почистить контакт оперативной памяти (обычно я использую резину, которая дешевле некоторых продуктов).