Я хотел бы попросить о помощи, так как чувствую себя здесь немного невежественным.
Недавно я купил выделенную машину низкого уровня, на которой должны были размещаться некоторые службы: squid, proftpd и rtorrent.
Я установил debian lenny и сразу же обновился, чтобы сжать и настроить службы. Я запустил rtorrent, но после того, как машина достигает большой нагрузки (сетевой трафик> 10 Мбит / с, максимальный ЦП), он держится какое-то время, затем все сетевые соединения разрываются, и мне нужно заказать полный сброс, чтобы вернуть его в онлайн.
Я подумал, что это проблема неправильной конфигурации, поэтому я попытался перенастроить сервер и установить на нем ubuntu 10.04, но получаю те же результаты.
Я просмотрел /var/log/kernel.log, и в ubuntu я вижу несколько сообщений «Clocksource tsc unstable» прямо перед тем, как машина выйдет из строя.
Я также вижу такие же сообщения при сжатии, только не так близко к перезагрузкам, как на ubuntu. Google сказал мне, что они могут иметь какое-то отношение к масштабированию частоты процессора. Есть множество отчетов от пользователей вроде меня, которые случайно зависают. Кажется, однозначного ответа нет: люди решили проблему обновлением драйверов видеокарты, заменой неисправного оборудования, изменением регулятора масштабирования частоты и т. Д.
До сих пор я экспериментировал только с регулятором частотного масштабирования, установка его на «производительность», кажется, замораживает машину быстрее, чем со стандартным «ondemand».
Вот характеристики процессора машины:
# cat /proc/cpuinfo
processor : 0
vendor_id : AuthenticAMD
cpu family : 15
model : 39
model name : AMD Athlon(tm) 64 Processor 3700+
stepping : 1
cpu MHz : 2200.000
cache size : 1024 KB
fdiv_bug : no
hlt_bug : no
f00f_bug : no
coma_bug : no
fpu : yes
fpu_exception : yes
cpuid level : 1
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge
mca cmov pat pse36 clflush mmx fxsr sse sse2 syscall nx mmxext fxsr_opt
lm 3dnowext 3dnow up pni lahf_lm
bogomips : 4398.97
clflush size : 64
cache_alignment : 64
address sizes : 40 bits physical, 48 bits virtual
power management: ts fid vid ttp tm stc
# cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_available_governors
conservative userspace powersave ondemand performance
# cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_available_frequencies
1000000 1800000 2000000 2200000
# cat /sys/devices/system/clocksource/clocksource0/available_clocksource
acpi_pm
Я попросил службу поддержки центра обработки данных выполнить проверку оборудования, и они проверили машину в течение 8 часов без ошибок.
Сейчас. Как я могу узнать, что происходит с этим сервером? Я почти уверен, что это неисправное оборудование, но у меня нет доказательств, которые я мог бы показать службе поддержки центра обработки данных.
В настоящее время я использую squeeze 2.6.32-5-686-bigmem. Машина имеет 1024 МБ оперативной памяти и 2 жестких диска Sata по 160 ГБ. Сетевая карта - это 100-мегабитная карта Realtek с соответствующими драйверами из пакета debian firmware-realtek.
Я хотел бы узнать, как с этим бороться.
Вы пробовали ограничить ресурсы, которые использует rtorrent?
У меня была аналогичная проблема, и я смог решить свои проблемы, ограничив объем памяти, который использует rtorrent.
В конфигурации rtorrent это параметр max_memory_usage в байтах.
Например, я установил свой:
max_memory_usage = 268435456
Вам следует собрать некоторую статистику, возможно, используя Cacti или Nagios с PNP4Nagios или NagiosGrapher. Вероятно, нагрузка на сервер была настолько высока, что он просто перестал отвечать. Такое поведение не вызвано проблемами в ядре или в среде, поскольку слишком большая нагрузка сама по себе является проблемой. Возможно, вам стоит найти правильные ограничения на использование ресурсов.