Назад | Перейти на главную страницу

Рабочие-единороги умирают

Прошлой ночью около полуночи наше приложение упало, и я пытаюсь понять, почему. В настоящее время у нас есть интерфейсный сервер nginx и 2 рабочих сервера (приложений) единорога на EC2.

Практически все наши рабочие-единороги задерживались по таймауту и, следовательно, были перезапущены мастером.

Насколько я могу судить, в настоящее время у нас нет crontab или чего-то еще, что нужно запускать, поэтому я немного озадачен.

Я смог запустить приложение сегодня утром, когда проснулся (после 6 часов простоя), убив процессы единорога и повторно выполнив двоичный файл единорога. (unicorn_rails -c unicorn.rb и т. д.)

Есть идеи, где искать? Тот факт, что оба сервера приложений вышли из строя, заставляет меня думать, что это может быть база данных (RDS)?

Журнал был заполнен следующим (за 6 часов и т. Д.);

E, [2013-02-28T00:07:40.367981 #11097] ERROR -- : worker=2 PID:26941 timeout (31s > 30s), killing
E, [2013-02-28T00:07:40.468495 #11097] ERROR -- : reaped #<Process::Status: pid 26941 SIGKILL (signal 9)> worker=2
I, [2013-02-28T00:07:40.756724 #28319]  INFO -- : worker=2 ready
E, [2013-02-28T00:07:44.519818 #11097] ERROR -- : worker=1 PID:11292 timeout (31s > 30s), killing
E, [2013-02-28T00:07:44.626362 #11097] ERROR -- : worker=0 PID:26933 timeout (31s > 30s), killing
E, [2013-02-28T00:07:44.726936 #11097] ERROR -- : reaped #<Process::Status: pid 11292 SIGKILL (signal 9)> worker=1
E, [2013-02-28T00:07:44.727254 #11097] ERROR -- : worker=0 PID:26933 timeout (31s > 30s), killing
E, [2013-02-28T00:07:44.932858 #11097] ERROR -- : reaped #<Process::Status: pid 26933 SIGKILL (signal 9)> worker=0
I, [2013-02-28T00:07:45.661356 #28329]  INFO -- : worker=1 ready
I, [2013-02-28T00:07:45.828289 #28334]  INFO -- : worker=0 ready
E, [2013-02-28T00:08:11.113970 #11097] ERROR -- : worker=2 PID:28319 timeout (31s > 30s), killing
E, [2013-02-28T00:08:11.214770 #11097] ERROR -- : reaped #<Process::Status: pid 28319 SIGKILL (signal 9)> worker=2
I, [2013-02-28T00:08:11.518723 #28368]  INFO -- : worker=2 ready
E, [2013-02-28T00:08:16.270463 #11097] ERROR -- : worker=1 PID:28329 timeout (31s > 30s), killing
E, [2013-02-28T00:08:16.371067 #11097] ERROR -- : worker=0 PID:28334 timeout (31s > 30s), killing
E, [2013-02-28T00:08:16.471684 #11097] ERROR -- : reaped #<Process::Status: pid 28329 SIGKILL (signal 9)> worker=1
E, [2013-02-28T00:08:16.471983 #11097] ERROR -- : reaped #<Process::Status: pid 28334 SIGKILL (signal 9)> worker=0
I, [2013-02-28T00:08:17.038915 #28376]  INFO -- : worker=0 ready
I, [2013-02-28T00:08:17.128931 #28379]  INFO -- : worker=1 ready
E, [2013-02-28T00:08:42.628665 #11097] ERROR -- : worker=2 PID:28368 timeout (31s > 30s), killing
E, [2013-02-28T00:08:42.729290 #11097] ERROR -- : reaped #<Process::Status: pid 28368 SIGKILL (signal 9)> worker=2
I, [2013-02-28T00:08:43.015140 #28390]  INFO -- : worker=2 ready
E, [2013-02-28T00:08:48.778221 #11097] ERROR -- : worker=0 PID:28376 timeout (31s > 30s), killing
E, [2013-02-28T00:08:48.878530 #11097] ERROR -- : worker=1 PID:28379 timeout (31s > 30s), killing

Удалось решить это ребятам. Дальнейшее исследование показало большие объемы сетевого трафика (и использование процессора!) В период с 12 до 4 часов. Оказывается, наши настройки веб-мастера Bing в это время были установлены на «высокий», что привело к тому, что bingbot сошел с ума и полностью забил единорога. (бедный единорог).

Больше информации; https://webmasters.stackexchange.com/questions/23084/ms-bing-web-crawler-out-of-control-causing-our-site-to-go-down