У меня есть вопрос. Имеет ли значение использование sa-learn для обучения spamassassin работе со спамом и радиолюбительством? Что делать, если я не использую его, потому что на моем почтовом сервере нет образцов спама или радиолюбителей?
sa-learn обычно используется для почты, хранящейся на машине (в формате mbox или maildir), и работает только в том случае, если вы отправили спам и ветчину отдельно. Если вы собираетесь его использовать, лучше всего использовать его с приличным количеством примеров того и другого, чтобы предотвратить смещение фильтра.
есть хороший документ Вот который проходит через процесс и детали, но для этого требуется локально сохраненная почта (в любом формате).
Сказав это, я использую SA на нескольких устройствах и никогда не использую sa-learn, и он по-прежнему неплохо справляется. Я использую ряд других методов защиты от спама, которые не основаны на SA ...
Я согласен с ответом Марка Регенсберга, но если быть более конкретным: насколько я понимаю, sa-learn и другие байесовские элементы SpamAssassin влияют только на байесовские тесты (вы можете видеть текущий полный список тестов SA в целях разъяснения).
То есть все тесты, основанные на правилах, работают с полной эффективностью, независимо от того, используете вы sa-learn или нет. Только соответствие BAYES_nn
правила зависят от вашего индивидуального обучения байесовскому движку с sa-learn --ham
и --spam
.
При этом некоторые из этих тестов получают довольно высокие баллы - на рейтинг сообщения может влиять величина от -1,9 до +3,8, в зависимости от того, насколько «спамит» байесовский движок - так что я нахожу довольно много Ценность обучения моего двигателя. Как отмечает Марк, для этого вам нужно будет подавать свою ветчину и необнаруженный спам отдельно.
Отвечая на ваше примечание к Марку, "другой" метод, который уменьшил мой спам больше, чем любой другой, - серый список, который, устранив почту типа «запустил и забыл», сократил объем входящего спама более чем на 90%. Представляем SPF фильтрация по входящей электронной почте был вторым по эффективности, сокращая его примерно на 5%.
SpamAssassin предлагает несколько методов поиска спама. Одним из них являются его регулярные выражения (как отмечено в ответе MadHatter), но в наши дни это не очень эффективно. Другой (также отмеченный MadHatter) - это SPF, хотя я бы назвал его незначительным в плане способности улавливать спам, который иначе не был бы перехвачен.
Наиболее эффективными методами в SpamAssassin являются байесовское обнаружение и поиск в Интернете (DNSBL (также известные как «RBL») и URI DNSBL, а также системы хеширования, такие как Бритва и Пызорсм. также вики-страницы SA для установка Razor и установка Pyzor).
Поиск в Интернете - безусловно, самый простой; настройте их правильно, и все готово. Они будут следить за спамом, который попадает в различные сети спам-ловушек (приманки), но они не защитят вас от атак на снегоступах (что слишком быстро) или целевых атак, таких как целевой фишинг (который слишком мал).
Байесовское обнаружение требует постоянного обслуживания; это система машинного обучения, и поэтому ее необходимо регулярно обучать тому, что она упустила (и что она неправильно поймала). Чем больше внимания ему уделяется, тем лучше.
SpamAssassin имеет система автообучения это предполагает, что весь спам с очень высокой оценкой должен быть изучен как таковой, а весь спам с очень низкой оценкой должен быть изучен таким же образом как хам. Проблема в том, что он учится только на том, что легко, и (особенно для радиолюбителей) может учиться на неверно классифицированной почте, что усилит ошибки SpamAssassin.
Никакое развертывание SpamAssassin не должно доверять автоматическому обучению без дополнительного ручного обучения. Он предназначен для дополнения ручного обучения, а не для его замены. Вы должны использовать sa-learn
(или spamassassin --report
, который также сообщает Pyzor, Razor и SpamCop DNSBL).
Вы можете узнать больше о Байес в вики по SpamAssassin.