Назад | Перейти на главную страницу

Зависание сервера Debian

Я заранее предупреждаю, что не являюсь надлежащим администратором, я просто программист с сервером, на котором я установил Debian Etch плюс mysql, php, apache и ISPConfig.

Итак, он проработал более 900 дней без единой проблемы (на нем нет важной нагрузки, всего пара наших сервисов), а потом он стал плохо себя вести - вдруг завис (работает только пинг, ничего else), и когда я пытаюсь перезапустить его через интерфейс ISP, он полностью зависает. Затем мне нужно запросить поддержку для ручного перезапуска. После этого он работает нормально пару дней, затем снова происходит то же самое (пока это было трижды).

Теперь я выполнил загрузку по сети и запустил fsck (обнаружил 1,1% несмежных), и я надеюсь, что это поможет

Мой вопрос: был ли у кого-нибудь подобный опыт и что могло вызвать такую ​​проблему (когда работает только пинг)?

Кроме того, я просмотрел системный журнал, но не нашел ничего, что могло бы указывать на проблему. Есть ли другой журнал, в котором я должен заглянуть?


спасибо за много ответов!

Извините, я еще не зарегистрировался, поэтому у меня нет возможности проголосовать. Но спасибо!

Во-первых, чтобы решить эту проблему, это размещенный сервер, и у поддержки интернет-провайдера есть функция сетевой загрузки / сброса / ручного сброса.

Вероятно, это проблема с жестким диском, поскольку - после fsck - все, казалось, работало нормально, пока я не посмотрел глубже и не понял, что работает только первая страница, а другие - нет (страницы выдают ошибку 403 запрещено или просто пустую страницу или ошибка mysql ...).

SSH тоже вроде работает, но на самом деле он не работает: я могу попытаться войти в систему, и он откажется от неправильного пароля, но когда я ввожу правильный - соединение просто закрывается.

Я попытаюсь получить доступ к файлам еще раз через сетевую загрузку и резервное копирование в максимально возможной степени, затем придется заменить диск ...

Можно ли клонировать диск с ошибками на нем? В любом случае, стоит ли пробовать?

ОБНОВЛЕНИЕ: Сегодня (через день после того, как я задал вопрос) выяснилось, что жесткий диск определенно неисправен. Еще раз спасибо за ваше время и помощь!

Предполагая, что это выделенный физический сервер:

В следующий раз, когда он зависнет, ваша хостинговая компания должна подключить «аварийную тележку» и посмотреть, что на экране (консоли), или спуститься самостоятельно. В следующий раз, когда он начнет действовать, если вы сможете войти в систему, введите «dmesg» и поищите сообщения об ошибках; включите их, отредактировав свой вопрос и вставив их, или используя pastebin.

Раньше я делал снимки на цифровой фотоаппарат или мобильный телефон для последующего использования или показа кому-нибудь удаленно. Любые серьезные сообщения ядра, скорее всего, будут на экране (это зависит от того, как настроено ведение журнала); без этой информации ответы, которые вы получите, будут по существу безумными.

Мое безумное предположение - отказ жесткого диска; принесите загрузочный компакт-диск (вероятно, самый простой вариант - Ubuntu) и запустите smartctl -A вставьте сюда путь устройства жесткого диска. Вы получите список параметров состояния диска и, что более важно, журнал ошибок диска, если таковые имеются.

Также: не обращайте внимания на человека, предложившего обновить ОС. Это исключительно опасный совет.

Обновить: Да, можно клонировать поврежденный диск, если у вас нет хороших или недавних резервных копий. Посмотрите на GNU ddrescue. Однако это продвинутый инструмент. Если на кону деньги, отправьте их на восстановление или хотя бы наймите профессионального системного администратора, у которого есть опыт восстановления данных.

Возможно, это проблема с оборудованием. Ошибки диска или памяти, перегрев (забит вентилятор или вентиляционные отверстия), вышла из строя сетевая карта. Если нет аппаратных ошибок, то в первую очередь я бы обновил систему до lenny, а затем сжал. Возможно, это может автоматически решить ваши проблемы.

Я бы также просканировал систему на наличие плохих блоков (это название команды). В mkfs.ext3 есть такая опция:

-c     This option causes e2fsck to use badblocks(8) program to do a read-only scan of the device in order to find any bad 
       blocks.  If any bad blocks are found, they are added to the bad block inode to prevent them from being allocated to
       a file or directory. If this option is specified twice, then the bad block scan will be done using a 
       non-destructive read-write test.

Так вы сможете избежать ошибок диска, вызванных плохими блоками.

Также рассмотрите возможность запуска теста памяти с помощью memtest86 или memtest86 +. Если он обнаруживает ошибки, и вы чувствуете себя рискованным, вы можете использовать вывод memtest для передачи в ядро ​​и отображения любой плохой памяти: http://rick.vanrein.org/linux/badram/

Я точно знаю, что это работает очень хорошо. Однажды у меня был плохой димм, который предсказуемо вылетал из строя и сжигал систему в какой-то момент выделения памяти. После использования memtest и обнаружения плохой области памяти я использовал параметр ядра badram, чтобы отобразить ее, и проблема была решена.