У меня есть задача ECS, запущенная на экземпляре EC2 в VPC, поэтому мои возможности отладки ограничены.
Он работает на одиночный поток (& core) при 100% использовании, затем внезапно все падает (память и процессор) и остается таким, пока я не убью экземпляр. Не могу прикрепить дальнейший вход в саму задачу, но для любопытных она выполняется a.build (n_trees) из библиотеки, которая строит деревья NN (см. ссылку).
Задача, которую я выполняю, использует значительный объем памяти (~ 9,5 ГБ) и записывает файл размером 10 ГБ на диск в m5.2xlarge. Он отлично работает с небольшими файлами. Сначала я думал, что заполняю память, но эти журналы облачных часов показывают, что это не так:
(это при среднем размере окна 5 минут, но более детальный анализ больше не раскрывает правды)
Вот список вещей, которые я пока безуспешно тестировал:
Могу ли я еще что-нибудь рассмотреть как возможную причину такого поведения?