sa-learnp - онлайн у хмарі

Це команда sa-learnp, яку можна запустити в постачальнику безкоштовного хостингу OnWorks за допомогою однієї з наших численних безкоштовних робочих станцій, таких як Ubuntu Online, Fedora Online, онлайн-емулятор Windows або онлайн-емулятор MAC OS.

ПРОГРАМА:

ІМ'Я


sa-learn - навчати байєсіанського класифікатора SpamAssassin

СИНТАКСИС


sa-навчитися [параметри] [файл]...

sa-навчитися [параметри] --dump [ все | дані | магія]

варіанти:

--ham Вивчіть повідомлення як хам (не спам)
--spam Вивчіть повідомлення як спам
--forget Забути повідомлення
--use-ignores Використовуйте bayes_ignore_from та bayes_ignore_to
--sync Синхронізувати базу даних і журнал, якщо потрібно
--force-expire Примусова синхронізація бази даних і запуск закінчення терміну дії
--dbpath Дозволяє замінити командний рядок (у формі bayes_path)
звідки читати БД Байєса
--dump [all|data|magic] Відображення вмісту бази даних Байєса
Приймає необов’язковий аргумент для того, що відображати
--регулярний вираз Лише для дампу, вказує, для яких маркерів
дамп на основі регулярного виразу.
-f файл, --folders=file Читати список файлів/каталогів із файлу
--dir Проігноровано; історична сумісність
--файл проігноровано; історична сумісність
--mbox Джерела входу мають формат mbox
--mbx Джерела входу мають формат mbx
--max-size Пропускати повідомлення, розмір яких перевищує b байтів;
за замовчуванням 256 КБ, 0 означає відсутність обмежень
--showdots Показувати прогрес за допомогою точок
--progress Показати прогрес за допомогою панелі прогресу
--no-sync Пропустити синхронізацію бази даних і журналу
після навчання
-L, --local Працює локально, без доступу до мережі
--import Перенести дані зі старої версії/не DB_File
баз даних
--clear Видалити наявну базу даних
--резервне копіювання, до STDOUT, існуючої бази даних
--відновлення Відновити базу даних з імені файлу
-u ім'я користувача, --username=ім'я користувача
Замінити ім’я користувача, узяте з середовища виконання
середовище, що використовується з SQL
-C шлях, --configpath=шлях, --config-file=шлях
Шлях до стандартної конфігурації dir
-p prefs, --prefspath=файл, --prefs-file=файл
Встановити файл налаштувань користувача
--siteconfigpath=шлях Шлях до конфігурацій сайту
(за замовчуванням: /etc/spamassassin)
--cf='config line' Додатковий рядок конфігурації
-D, --debug [area=n,...] Друк повідомлень про налагодження
-V, --version Версія для друку
-h, --help Роздрукувати повідомлення про використання

ОПИС


З огляду на типовий вибір вашої вхідної пошти, класифікованої як спам або хам (не спам), це
інструмент передасть кожну пошту до SpamAssassin, дозволяючи йому «дізнатися», які ознаки, ймовірно,
означають спам, і які, ймовірно, означають шинку.

Просто запустіть цю команду один раз для кожної з ваших поштових папок, і вона «навчиться» з
пошту в ньому.

Зверніть увагу, що в стилі csh глобус в поштовій папці підтримуються імена; іншими словами,
Якщо вказати назву папки як "*", буде скановано кожну відповідну папку. Побачити
"Mail::SpamAssassin::ArchiveIterator" для отримання додаткової інформації.

SpamAssassin запам'ятовує, які поштові повідомлення він уже вивчив, і не буде знову вивчати
ці повідомлення знову, якщо ви не використовуєте -- забудь варіант. Повідомлення, розпізнані як спам, будуть
видаліть розмітку SpamAssassin на льоту.

Якщо ви зробили помилку і відсканували пошту як шинку, коли це спам, або навпаки, просто перезапустіть
цю команду з правильною класифікацією, і помилка буде виправлена.
SpamAssassin автоматично «забуде» попередні ознаки.

Користувачі "спаму", які бажають проводити навчання віддалено, через мережу, повинні перевірити
перемикач "spamc -L".

ВАРІАНТИ


-- шинка
Вивчіть вхідні повідомлення як шинка. Якщо ви раніше вивчили будь-яке з повідомлень
як спам, SpamAssassin спочатку забуде їх, а потім знову вивчить їх як шинку.
Крім того, якщо ви раніше вивчали їх як шинку, цього разу їх пропустить
навколо. Якщо повідомлення вже відфільтровано через SpamAssassin, учень
ігноруватиме будь-які зміни, внесені SpamAssassin.

--спам
Дізнайтеся про вхідні повідомлення як спам. Якщо ви раніше вивчали будь-яке з
повідомлення як хам, SpamAssassin спочатку забуде їх, а потім знову вивчить як спам.
Крім того, якщо ви раніше впізнали їх як спам, цього разу вони пропущені
навколо. Якщо повідомлення вже відфільтровано через SpamAssassin, учень
ігноруватиме будь-які зміни, внесені SpamAssassin.

--папки=ім'я файлу, -f ім'я файлу
sa-learn читатиме список папок із зазначеного файлу, по одній папці на рядок
у файлі. Якщо папка має префікс "ham:type:" або "spam:type:", sa-learn
дізнається цю папку належним чином, інакше буде вважатися, що папки належать до
тип, зазначений за допомогою -- шинка or --спам.

"тип" вище є необов'язковим, але такий самий, як і стандартний для ArchiveIterator: mbox,
mbx, dir, файл або виявити (за замовчуванням, якщо не вказано).

--mbox
sa-learn прочитає файл(и), що містить електронні листи, які потрібно вивчати, і буде
обробляти їх у форматі mbox (один або кілька листів на файл).

--mbx
sa-learn прочитає файл(и), що містить електронні листи, які потрібно вивчати, і буде
обробляти їх у форматі mbx (один або кілька листів на файл).

--use-ігнорує
Не вивчайте повідомлення, якщо адреса від збігається з елементом файлу конфігурації
"bayes_ignore_from" або адреса відповідає "bayes_ignore_to". Варіант може бути
Використовується під час вивчення великого файлу повідомлень, з якого містяться спамові повідомлення або
спам-повідомлення не видалено.

--синхронізація
Синхронізувати журнал і бази даних. Після успішної синхронізації бази даних з
записів у журналі файл журналу видаляється.

--force-expire
Примушує спробу закінчення терміну дії, незалежно від того, потрібна вона чи ні. Примітка:
Це не означає, що термін дії будь-яких маркерів закінчиться. Будь ласка, дивіться розділ ТЕРМІН ПРИРОДНОСТІ
нижче.

Примітка: «--force-expire» також призводить до синхронізації даних журналу з байєсовими
бази даних

-- забудь
Забудьте дане повідомлення, вивчене раніше.

--dbpath
Дозволяє перевизначення командного рядка bayes_path варіант налаштування.

--звалища варіант
Відобразити вміст бази даних Байєса. Без опції або з всі варіант
будуть відображені всі магічні токени та маркери даних. магія відображатиме лише магію
жетони, та дані відображатиме лише маркери даних.

Також можна використовувати --регулярний вираз RE можливість вказати, які маркери відображати на основі a
регулярний вираз.

-- ясно
Очистіть наявну базу даних Байєса, видаливши всі сліди бази даних.

ПОПЕРЕДЖЕННЯ: це руйнівно, і використовувати його слід обережно.

--резервне копіювання
Виконує дамп бази даних Байєса у форматі, доступному для читання машиною або людиною.

Дамп включатиме маркер і переглянуті дані. Він підходить для введення назад в
-- команда відновлення.

--відновлення=ім'я файлу
Виконує відновлення бази даних Байєса, визначеної за допомогою ім'я файлу.

ПОПЕРЕДЖЕННЯ: Це руйнівна операція, попередні дані Байєса будуть стерті.

-h, --допомога
Роздрукуйте довідкове повідомлення та вийдіть.

-u ім'я користувача, --ім'я користувача=ім'я користувача
Якщо вказано, це ім’я користувача замінить ім’я користувача, узяте з середовища виконання
середовище. Ви можете використовувати цю опцію, щоб вказати користувачів у конфігурації віртуального користувача
при використанні SQL як бекенда Байєса.

ПРИМІТКА. Ця опція не зміниться на дану ім'я користувача, він буде лише намагатися діяти
від імені цього користувача. Через це вам потрібно мати відповідні дозволи
мати можливість змінювати файли, якими володіє ім'я користувача. У випадку SQL це, як правило, не a
проблема.

-C шлях, --configpath=шлях, --файл конфігурації=шлях
Використовуйте вказаний шлях для пошуку розподілених файлів конфігурації. Ігноруйте
каталоги за замовчуванням (зазвичай "/usr/share/spamassassin" або подібні).

--siteconfigpath=шлях
Використовуйте вказаний шлях для пошуку файлів конфігурації для певного сайту. Ігноруйте
каталоги за замовчуванням (зазвичай "/etc/spamassassin" або подібні).

--cf='config лінія'
Додайте додаткові рядки конфігурації безпосередньо з командного рядка, проаналізувати після
файли конфігурації читаються. Кілька --пор аргументи можна використовувати, і кожен буде
розглядається окремою лінією конфігурації.

-p преф, --prefspath=преф, --prefs-файл=преф
Читати параметри оцінки користувачів із преф (зазвичай "$HOME/.spamassassin/user_prefs").

-- прогрес
Друкує індикатор виконання (до STDERR), що показує поточний прогрес. У випадку, коли немає
знайдено дійсний термінал, цей параметр буде вести себе дуже схоже на параметр --showdots.

-D [площа,...], --відлагоджувати [площа,...]
Створити вихідні дані для налагодження. Якщо жодних областей не вказано, вся інформація про налагодження є
друкований. Вихід діагностики також можна ввімкнути для кожної області окремо; область є
область коду інструменту. Наприклад, щоб створити діагностичний вихід на байтах,
дізнайтеся, і dns, використовуйте:

spamassassin -D bayes,Learn,dns

Для отримання додаткової інформації про те, які області (також відомі як канали) доступні, будь ласка
дивіться документацію за адресою:

C<http://wiki.apache.org/spamassassin/DebugChannels>

Інформаційні повідомлення вищого пріоритету, які підходять для звичайного входу
обставини доступні в області "інформація".

--без синхронізації
Пропустіть крок повільної синхронізації, який зазвичай відбувається після зміни бази даних
записи. Якщо ви плануєте навчатися з багатьох папок у пакеті або вивчати багато
окремі повідомлення одне за одним, швидше використовувати цей перемикач і запустити "sa-learn
--sync" після сканування всіх папок.

Уточнення: стан с --без синхронізації перекриває bayes_learn_to_journal
варіант конфігурації. Якщо не вказано, sa-learn навчатиметься безпосередньо в базі даних.
Якщо вказано, sa-learn вивчатиме файл журналу.

Примітка: --синхронізація та --без синхронізації можна вказати в тому ж командному рядку, що трохи
збиває з пантелику. У цьому випадку, --без синхронізації Опція ігнорується, оскільки навчання немає
операції.

-L, --місцевий
Не виконуйте жодних доступів до мережі, вивчаючи деталі про поштові повідомлення.
Це прискорить процес навчання, але може призвести до дещо нижчої точності.

Зауважте, що наразі це ігнорується, оскільки поточні версії SpamAssassin не будуть
здійснювати доступ до мережі під час навчання; але майбутні версії можуть.

--імпорт
Якщо ви раніше використовували програму для навчання Bayesian від SpamAssassin без модуля "DB_File"
встановлений, він створюватиме файли в інших форматах, наприклад "GDBM_File",
"NDBM_File" або "SDBM_File". Цей перемикач дозволяє перенести старі дані в файл
Формат "DB_File". Він перезапише будь-які дані в даний момент у "DB_File".

Також можна використовувати з --dbpath шлях можливість вказати розташування Байєса
файли для використання.

МИГРАЦИЯ


Тепер для зберігання байєсівських даних користувача доступно кілька серверних модулів зберігання.
Таким чином, ви можете перейти з одного бекенда на інший. Ось така проста процедура
для міграції з одного бекенда на інший.

Зауважте, що якщо у вас є окремі бази даних користувачів, вам доведеться виконати подібне
процедури для кожного з них.

sa-learn --sync
Це синхронізує всі невиконані записи в журналі

sa-learn --backup > backup.txt
Це збереже всі ваші дані Байєса в текстовий файл.

sa-learn --зрозуміло
Це необов’язково, але добре, щоб очистити стару базу даних.

Повторіть!
На цьому етапі, якщо у вас є кілька баз даних, слід виконати описану вище процедуру
для кожного з них. (тобто перед продовженням необхідно створити резервну копію бази даних кожного користувача.)

Перемикання серверів
Після створення резервної копії всіх баз даних можна оновити конфігурацію для нової
бекенд бази даних. Це включатиме принаймні параметр конфігурації bayes_store_module та
може включати деякі додаткові параметри конфігурації залежно від того, що вимагається
модуль. (Наприклад, вам може знадобитися налаштувати базу даних SQL.)

sa-learn --restore backup.txt
Знову ж таки, вам потрібно зробити це для кожної бази даних.

Якщо ви переходите на SQL, ви можете використовувати -u варіант у sa-навчитися
заповнити базу даних кожного користувача. В іншому випадку ви повинні запустити sa-learn як користувач, який використовує базу даних
ви відновлюєте.

ВСТУП TO БАЙЄСІЙСЬКИЙ ФІЛЬТРУВАННЯ


(Дякую Майклу Беллу за цей розділ!)

Для більш розгорнутого опису того, як це працює, перейдіть до http://www.paulgraham.com/ і бач
«План проти спаму». Він досить читабельний, навіть якщо статистика змушує мене вирватися
вулики.

Коротка напівнеточна версія: за умови навчання механізм евристики спаму може прийняти
більшість "спамських" і "хаммі" слів і застосовувати імовірнісний аналіз. До того ж один раз дано
основою для аналізу, двигун може продовжувати навчатися ітераційно, застосовуючи обидва
небайєсівські та байєсівські набори правил разом для створення «інтелекту», що розвивається.

SpamAssassin 2.50 і новіші підтримують байєсівський аналіз спаму у формі BAYES
правила. Це нова функція, досить потужна, і вона вимкнена, доки не буде достатньо повідомлень
вивчено.

Плюси байєсівського аналізу спаму:

Може значно зменшити кількість хибнопозитивних і хибнонегативних результатів.
Він навчається з вашої пошти, тому він адаптований до вашого унікального потоку електронної пошти.

Як тільки він почне вчитися, він може продовжувати вчитися у SpamAssassin і з часом вдосконалюватися.

І мінуси:

Потрібна пристойна кількість повідомлень, перш ніж результати стануть корисними для розсилки/спаму
визначення.
Важко пояснити, чому повідомлення позначено як спам чи ні.
тобто: просте правило, яке відповідає, скажімо, «ВІАГРА», легко зрозуміти. Якщо це
генерує хибнопозитивний або хибнонегативний результат, досить легко зрозуміти, чому.

З байєсіанським аналізом це все ймовірності - "тому що минуле говорить, що це ймовірно
оскільки це підпадає під імовірнісний розподіл, звичайний для минулого спаму у ваших системах».
Розкажіть це своїм користувачам! Скажіть це клієнту, коли він запитає: «Що я можу зробити?
змінити це". (До речі, відповідь у цьому випадку - "використовувати білий список".)

Це займе місце на диску та пам’ять.
Бази даних, які він підтримує, займають досить багато ресурсів для зберігання та використання.

ВІДТВОРЕННЯ ПОЧАТОК


Все ще зацікавлені? Гаразд, ось інструкції, як це працювати.

Спочатку огляд високого рівня:

Створіть значну вибірку як шинки, так і спаму.
Я пропоную кілька тисяч кожного, розміщених у каталогах або поштових скриньках SPAM і HAM.
Так, ви ПОВИННІ сортувати це вручну, інакше результати будуть не набагато кращими
SpamAssassin самостійно. Перевірте спам/неприємність КОЖНОГО повідомлення. ти
закликають уникати використання загальнодоступного корпусу (зразка) - це потрібно брати з
ВАШ поштовий сервер, якщо він хоче бути статистично корисним. Інакше можуть бути результати
досить перекошений.

Використовуйте цей інструмент, щоб навчити SpamAssassin про ці зразки, наприклад:
sa-learn --spam /шлях/до/папки/спаму
sa-learn --ham /шлях/до/папки/ham
...

Нехай SpamAssassin продовжує, вивчаючи речі. Коли він знайде шинку та спам, він додасть
«цікаві токени» до бази даних.

Якщо вам потрібно, щоб SpamAssassin забув про конкретні повідомлення, скористайтеся -- забудь варіант.
Це може бути застосовано до шинки або спаму, який пройшов через sa-навчитися процесів.
Справді, це трохи знизити вагу конкретних токенів
повідомлення (тільки якщо це повідомлення було оброблено раніше).

Навчання з окремих повідомлень використовує таку команду:
sa-learn --ham --no-sync повідомлення електронної пошти

Це зручно для прив’язки до ключа у вашому поштовому агенті користувача. Це дуже швидко, як і всі
процес, що займає багато часу, відкладається до тих пір, поки ви не запустите параметр "--sync".

Автонавчання ввімкнено за замовчуванням
Якщо у вас немає пошти, збереженої для навчання, ви можете дозволити SpamAssassin
автоматично вивчати пошту, яку ви отримуєте. Якщо ви навчаєтеся автоматично з нуля,
кількість пошти, яку ви отримаєте, визначатиме, скільки часу до виконання правил BAYES_*
активується.

ЕФЕКТИВНО НАВЧАННЯ


Навчальні фільтри вимагають навчання, щоб бути ефективними. Якщо ви їх не навчите, вони не будуть
працювати. Крім того, вам потрібно регулярно навчати їх новим повідомленням, щоб вони були в курсі...
дату, або їх дані стануть застарілими та вплинуть на точність.

Треба тренуватися з обома спамами та листи з шинки. Один тип пошти не матиме жодної
ефект

Зауважте, що якщо ваші поштові папки містять такі речі, як пересланий спам, обговорення спаму-
правила лову тощо, це спричинить проблеми. Вам слід уникати сканування цих повідомлень
якщо можливо. (Простий спосіб зробити це - перемістити їх убік у папку, якої немає
відскановано.)

Якщо повідомлення, з яких ви дізнаєтеся, вже були відфільтровані через SpamAssassin, то
учень компенсує це. Фактично, він дізнається, як виглядатиме кожне повідомлення
якби ви запустили "spamassassin -d" над ним заздалегідь.

Ще одна річ, яку слід знати, це те, що зазвичай ви повинні прагнути тренуватися принаймні з 1000
спаму та 1000 повідомлень, якщо це можливо. Більше – краще, але все закінчено
близько 5000 повідомлень не підвищує точність суттєво в наших тестах.

Будьте обережні, що ви навчаєтеся з того самого джерела, наприклад, якщо ви навчаєтеся на старому спамі,
але нова пошта шинки, тоді класифікатор подумає, що лист зі старою датою є
ймовірно, це спам.

Варто також відзначити, що тренування з дуже малою кількістю шинки дасть результат
жахливі результати. Ви повинні прагнути тренуватися принаймні з такою ж кількістю (або більше, якщо
можливо!) даних, ніж спам.

На постійній основі краще тренувати фільтр, щоб переконатися, що він свіжий
дані для роботи. Це можна зробити різними способами:

1. Контрольоване навчання
Це означає зберігати копію всієї або більшої частини вашої пошти, розділеної на спам і хам
палі, і періодично перенавчання за допомогою них. Це дає найкращі результати, але
вимагає більше роботи від вас, користувача.

(До речі, простий спосіб зробити це - створити нову папку для "видалених" повідомлень,
і замість того, щоб видаляти їх з інших папок, просто перемістіть їх туди.
Потім зберігайте весь спам в окремій папці і ніколи не видаляйте його. Поки пам’ятаєш
щоб перемістити неправильно класифіковані листи в правильний набір папок, це досить просто
на сьогоднішній день.)

2. Навчання без нагляду за байєсівською класифікацією
Інший спосіб тренування - це зв'язати результати байєсівського класифікатора назад у ланцюжок
навчання, тому він підкріплює власні рішення. Це безпечно, лише якщо ви потім перекваліфікуєтеся
на основі будь-яких виявлених помилок.

SpamAssassin не підтримує цей метод, через експериментальні результати, які сильно
вказують на те, що він не працює добре, і оскільки Байєс є лише однією частиною результату
оцінка, представлена ​​користувачеві (у той час як Байєс, можливо, прийняв неправильне рішення щодо a
пошту, можливо, вона була замінена іншою системою).

3. Вивчення правил SpamAssassin без нагляду
У SpamAssassin також називається «автонавчанням». На основі статистичного аналізу
Відсоток успіху SpamAssassin, ми можемо автоматично навчати базу даних Байєса за допомогою a
певний ступінь впевненості в тому, що наші навчальні дані є точними.

Якщо це можливо, його слід доповнити деякими тренуваннями під наглядом.

Це значення за замовчуванням, але його можна вимкнути, налаштувавши конфігурацію SpamAssassin
параметр "bayes_auto_learn" до 0.

4. Навчання на основі помилок
Це означає навчання для невеликої кількості листів, а потім лише для тих повідомлень
SpamAssassin класифікує неправильно. Це працює, але потрібно більше часу, щоб зробити це правильно
ніж повне тренування.

Використовуйте sa-learnp онлайн за допомогою служб onworks.net



Найновіші онлайн-програми для Linux і Windows