Назад | Перейти на главную страницу

Обработка элементов с помощью SpamAssassin и sa-learn

Я уже некоторое время работаю над запуском и запуском SpamAssassin, и я довольно близок к завершению. Однако есть еще одна вещь, которая меня беспокоит, и я не могу понять ее. Я немного искал, но не смог найти окончательного ответа, поэтому мне просто нужно немного ясности, чтобы я мог лучше спать по ночам.

Я читал, что SpamAssassin нужно как минимум 200 сообщений, предпочтительно 1000, чтобы эффективно выполнять байесовскую фильтрацию. Я скармливал ему спам (по крайней мере, мне кажется), выполнив следующую команду:

sa-learn --showdots --mbox --spam spamfolder

Насколько я могу судить, он обрабатывается SpamAssassin. Итак, я бегу:

sa-learn --dump magic

и получите следующий результат:

bruticus@bruticus:~$ sa-learn --dump magic
0.000          0          3          0  non-token data: bayes db version
0.000          0        306          0  non-token data: nspam
0.000          0        210          0  non-token data: nham
0.000          0      68430          0  non-token data: ntokens
0.000          0 1318421928          0  non-token data: oldest atime
0.000          0 1319141693          0  non-token data: newest atime
0.000          0 1319142287          0  non-token data: last journal sync atime
0.000          0 1319142287          0  non-token data: last expiry atime
0.000          0          0          0  non-token data: last expire atime delta
0.000          0          0          0  non-token data: last expire reduction count

Показательны ли элементы в столбце nspam и nham о фактическом объеме обучения и сообщений, которые SpamAssassin использует для байесовского анализа?

Нужно ли мне довести эти два набора чисел до 1000? чтобы SpamAssassin действительно начал выполнять свою работу, или как мне узнать, что я накормил его достаточным количеством спама для правильной работы?

Спам нужен всегда и Образцы ветчины. Заполняя только спам, SpamAssassin отказывается активировать байесовский фильтр спама.

Путем выдачи spamassassin -D < /path/to/a/complete.mail вы можете проверить, активирована ли байесовская фильтрация (где-то во всех отладочных сообщениях).

Надеюсь, вы не тренировали SpamAssassin со старым Spam (месячной давности). Это будет хорошо работать только в том случае, если вы использовали недавний спам, который вы (лично или как компания) получили в прошлом. Если у вас сейчас нет образцов Ham или Spam, вам лучше настроить SA на автообучение. Затем фильтр со временем обучается. Это занимает больше времени, и вы не видите выгоды прямо сейчас, но результат вас в конце концов впечатлит.


Да, ваши номера показывают "текущие" изученные сообщения. Если эти числа больше 200, вы закончили. Все вышеперечисленное делает его «более безопасным», как «более достоверный» или «точный». При автоматическом обучении эти числа со временем будут увеличиваться, а также уменьшаться, поскольку статистика старых писем со временем будет сбрасываться.