Назад | Перейти на главную страницу

Использование ЦП и памяти внезапно упало до 0 на AWS EC2

У меня есть задача ECS, запущенная на экземпляре EC2 в VPC, поэтому мои возможности отладки ограничены.

Он работает на одиночный поток (& core) при 100% использовании, затем внезапно все падает (память и процессор) и остается таким, пока я не убью экземпляр. Не могу прикрепить дальнейший вход в саму задачу, но для любопытных она выполняется a.build (n_trees) из библиотеки, которая строит деревья NN (см. ссылку).

Задача, которую я выполняю, использует значительный объем памяти (~ 9,5 ГБ) и записывает файл размером 10 ГБ на диск в m5.2xlarge. Он отлично работает с небольшими файлами. Сначала я думал, что заполняю память, но эти журналы облачных часов показывают, что это не так:

(это при среднем размере окна 5 минут, но более детальный анализ больше не раскрывает правды)

Вот список вещей, которые я пока безуспешно тестировал:

Могу ли я еще что-нибудь рассмотреть как возможную причину такого поведения?