Я хочу обучить свой фильтр SpamAssasin, и я загрузил все спам-тары с января 2015 года по ноябрь 2015 года с этого сайта: untroubled.org/spam/
Кроме того, я загрузил свои ветчины и спам-письма из своей личной учетной записи Gmail. Но все мои письма от Gmail содержат около 2500 писем, в то время как эти 11 таров с untroubled.org содержат около 410000 писем. Таким образом, соотношение «ветчина / спам» составляет примерно 1: 160, и, таким образом, фильтр SpamAssassin будет слишком смещен в сторону спама.
С другой стороны, подобные сайты с наборами данных о СПАМЕ предназначены в основном для исследователей СПАМА, а не для системных администраторов.
Итак, мой вопрос: чем обычно занимается системное администрирование, или какова рекомендуемая практика? Используют ли они такие наборы данных? Это так опасно?
Учитывая, что метод сбора СПАМА untroubled.org распространяет широкую сеть, я не вижу никаких проблем с обучением Spamassassin с этими данными.
Вам следует рассмотреть возможности вашего почтового сервера и решить, нужно ли вручную сканировать большие объемы известного спама. SA довольно хорошо фильтрует спам на основе своих внутренних правил, но если у вас есть время и желание вручную сканировать эти сообщения, это не вызовет никаких проблем для вашего сервера.