Назад | Перейти на главную страницу

переучивать байес автоматически узнал о спаме, когда письма уже обработаны биржей

Я использую postfix с amavis и spamassassin, чтобы отфильтровать спам, прежде чем передавать все на сервер обмена. Регулярно мне приходили письма, которые не перехватывались spamassassin, даже хуже того, они автоматически распознавались как ветчины.

Итак, я начал собирать их и экспортировать в виде открытого текста и хочу переобучить эти письма, пометив их как спам.

Из того, что я прочитал до сих пор, вы не должны указывать ничего, что вы хотите "повторно" обучить почту. Ты должен просто бежать с --spam и он должен забыть почту как ветчину и обучить ее как спам.

Но наблюдая sa-learn --dump magic показывает, что сохраняет автоматически полученную запись о ветчине И добавляет ее в спам.

Моя идея заключается в том, что Exchange каким-то образом отредактировал письма так, чтобы при экспорте и возвращении на сервер postfix это не та же почта, что и раньше. Может ли быть так? И если да, то есть ли способ сделать то, что я планировал, например, удалив некоторые заголовки?

Когда вы заново узнаете SpamAssassin, что сообщение должно быть спамом, он должен перевернуть сообщение с обычного на спам или со спама на ветчину. Проблема в том, что SpamAssassin узнает о сообщении на вашем узле ретрансляции, но когда оно пересылается на ваш сервер Exchange, заголовки меняются с момента добавления дополнительной строки Received. Вы можете попробовать, добавив в конфигурацию SpamAssassin следующее:

bayes_ignore_header Received

Это заставит SpamAssassin игнорировать заголовки Received при использовании байесовской фильтрации. Лично я не очень сторонник этого, поскольку он ограничивает ваш байесовский фильтр, что он видит и что я могу использовать, чтобы определить, является ли что-то ветчиной или спамом.

Возможно, вам стоит пересмотреть вопрос о включении автообучения. В большинстве случаев это приведет к загрязнению вашей базы данных, так как все больше любительских и спам-сообщений будут неправильно отмечены. Если вы хотите обучить свою базу данных последними сообщениями любительской и нежелательной почты, может быть целесообразно настроить учетную запись для любительской и нежелательной почты, которая будет получать заслуживающие доверия сообщения, которые могут быть помечены как любительские или спам-сообщения, и изучать их каждые X часов / минут. Но это более сложная настройка, для правильной работы которой требуется некоторое время.