sa-learnp - En ligne dans le Cloud

Exécutez sa-learnp dans le fournisseur d'hébergement gratuit OnWorks sur Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

Il s'agit de la commande sa-learnp qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

Exécuter sous Ubuntu Courir dans Fedora Exécuter dans Windows Sim Exécuter dans MACOS Sim

PROGRAMME:

Nom

sa-learn - former le classificateur bayésien de SpamAssassin

SYNOPSIS

sa-apprendre [options] [fichier]...

sa-apprendre [options] --dump [ tout | données | la magie ]

Options:

--ham Apprendre les messages en tant que ham (non-spam)
--spam Apprendre les messages comme spam
--forget Oublier un message
--use-ignores Utilise bayes_ignore_from et bayes_ignore_to
--sync Synchronise la base de données et le journal si besoin
--force-expire Force une synchronisation et une expiration de la base de données
--dbpath Permet le remplacement de la ligne de commande (sous forme bayes_path)
pour savoir où lire la base de données Bayes
--dump [all|data|magic] Affiche le contenu de la base de données Bayes
Prend un argument facultatif pour ce qu'il faut afficher
--regexp Pour le vidage uniquement, spécifie les jetons à
dump basé sur une expression régulière.
-f fichier, --folders=fichier Lire la liste des fichiers/répertoires à partir du fichier
--dir Ignoré ; compatibilité historique
--file Ignoré ; compatibilité historique
--mbox Les sources d'entrée sont au format mbox
--mbx Les sources d'entrée sont au format mbx
--max-size Ignore les messages de plus de b octets ;
par défaut à 256 Ko, 0 n'implique aucune limite
--showdots Afficher la progression à l'aide de points
--progress Afficher la progression à l'aide de la barre de progression
--no-sync Ignorer la synchronisation de la base de données et du journal
après avoir appris
-L, --local Fonctionne localement, pas d'accès réseau
--import Migrer les données d'une ancienne version/non DB_File
bases de données basées
--clear Effacer la base de données existante
--backup Sauvegarde, vers STDOUT, base de données existante
--restaurer Restaurer une base de données à partir d'un nom de fichier
-u nom d'utilisateur, --username=nom d'utilisateur
Remplacer le nom d'utilisateur extrait du runtime
environnement, utilisé avec SQL
-C chemin, --configpath=chemin, --config-file=chemin
Chemin d'accès au répertoire de configuration standard
-p prefs, --prefspath=fichier, --prefs-file=fichier
Définir le fichier de préférences utilisateur
--siteconfigpath=path Chemin des configurations de site
(par défaut : /etc/spamassassin)
--cf='config line' Ligne de configuration supplémentaire
-D, --debug [area=n,...] Affiche les messages de débogage
-V, --version Version imprimable
-h, --help Affiche le message d'utilisation

DESCRIPTION

Compte tenu d'une sélection typique de votre courrier entrant classé comme spam ou jambon (non-spam), cette
l'outil transmettra chaque courrier à SpamAssassin, lui permettant d'"apprendre" quels signes sont susceptibles de
signifie spam, et qui sont susceptibles de signifier jambon.

Exécutez simplement cette commande une fois pour chacun de vos dossiers de courrier, et elle « apprendra » à partir du
courrier à l'intérieur.

Notez que csh-style globuleux dans les noms de dossier de messagerie est pris en charge ; en d'autres termes,
lister un nom de dossier comme "*" analysera tous les dossiers qui correspondent. Voir
"Mail::SpamAssassin::ArchiveIterator" pour plus de détails.

SpamAssassin se souvient des messages électroniques qu'il a déjà appris et ne réapprendra pas
ces messages à nouveau, à moins que vous n'utilisiez le --Oubliez option. Les messages appris comme spam seront
faire supprimer le balisage SpamAssassin, à la volée.

Si vous faites une erreur et scannez un mail comme ham alors qu'il s'agit de spam, ou vice versa, relancez simplement
cette commande avec la bonne classification, et l'erreur sera corrigée.
SpamAssassin 'oubliera' automatiquement les indications précédentes.

Les utilisateurs de « spamd » qui souhaitent effectuer une formation à distance, sur un réseau, doivent enquêter
le commutateur "spam-L".

OPTIONS

--jambon
Apprenez le(s) message(s) d'entrée en tant que jambon. Si vous avez déjà appris l'un des messages
comme spam, SpamAssassin les oubliera d'abord, puis les réapprendra en tant que jambon.
Alternativement, si vous les avez déjà appris en tant que jambon, il les sautera cette fois
environ. Si les messages ont déjà été filtrés via SpamAssassin, l'apprenant
ignorera toutes les modifications que SpamAssassin pourrait avoir apportées.

--pourriel
Apprenez le(s) message(s) saisi(s) en tant que spam. Si vous avez déjà appris l'un des
messages en tant que jambon, SpamAssassin les oubliera d'abord, puis les réapprendra en tant que spam.
Alternativement, si vous les avez déjà appris comme spam, il les ignorera cette fois
environ. Si les messages ont déjà été filtrés via SpamAssassin, l'apprenant
ignorera toutes les modifications que SpamAssassin pourrait avoir apportées.

--Dossiers=nom de fichier, -f nom de fichier
sa-learn lira dans la liste des dossiers du fichier spécifié, un dossier par ligne
dans le fichier. Si le dossier est préfixé par "ham:type:" ou "spam:type:", sa-learn
apprendra ce dossier de manière appropriée, sinon les dossiers seront supposés être de
le type spécifié par --jambon or --pourriel.

"type" ci-dessus est facultatif, mais est le même que le standard pour ArchiveIterator : mbox,
mbx, dir, file ou detect (valeur par défaut si non spécifié).

--mbox
sa-learn lira le(s) fichier(s) contenant les emails à apprendre, et
les traiter au format mbox (un ou plusieurs emails par fichier).

--mbx
sa-learn lira le(s) fichier(s) contenant les emails à apprendre, et
les traiter au format mbx (un ou plusieurs emails par fichier).

--use-ignore
Ne pas apprendre le message si une adresse d'origine correspond à un élément du fichier de configuration
"bayes_ignore_from" ou une adresse à correspond à "bayes_ignore_to". L'option peut être
utilisé lors de l'apprentissage d'un gros fichier de messages à partir duquel les messages de spam hammy ou
les messages de spam spam n'ont pas été supprimés.

--sync
Synchronisez le journal et les bases de données. Après avoir réussi à synchroniser la base de données avec
les écritures du journal, le fichier journal est supprimé.

--force-expiration
Force une tentative d'expiration, que cela soit nécessaire ou non. Noter:
Cela ne signifie pas que les jetons expireront réellement. Veuillez consulter la section EXPIRATION
ci-dessous.

Remarque : "--force-expire" entraîne également la synchronisation des données du journal dans le Bayes
bases de données.

--Oubliez
Oubliez un message donné précédemment appris.

--chemindb
Permet un remplacement de la ligne de commande du chemin_bayes option de configuration.

--décharger option
Affichez le contenu de la base de données Bayes. Sans option ou avec le tous option,
tous les jetons magiques et les jetons de données seront affichés. la magie affichera seulement la magie
jetons, et données affichera uniquement les jetons de données.

Peut également utiliser le --expression régulière RE option pour spécifier les jetons à afficher en fonction d'un
expression régulière.

--dégager
Effacez une base de données Bayes existante en supprimant toutes les traces de la base de données.

AVERTISSEMENT : Ceci est destructeur et doit être utilisé avec précaution.

--sauvegarde
Effectue un vidage de la base de données Bayes dans un format lisible par machine/humain.

Le vidage inclura le jeton et les données vues. Il est adapté pour une entrée dans le
commande --restore.

--restaurer=nom de fichier
Effectue une restauration de la base de données Bayes définie par nom de fichier.

AVERTISSEMENT : Il s'agit d'une opération destructrice, les données Bayes précédentes seront effacées.

-h, --Aidez-moi
Imprimer le message d'aide et quitter.

-u Nom d'utilisateur, --Nom d'utilisateur=Nom d'utilisateur
S'il est spécifié, ce nom d'utilisateur remplacera le nom d'utilisateur tiré du runtime
environnement. Vous pouvez utiliser cette option pour spécifier des utilisateurs dans une configuration d'utilisateur virtuel
lors de l'utilisation de SQL comme backend Bayes.

REMARQUE : Cette option ne changera pas pour le Nom d'utilisateur, il tentera seulement d'agir
au nom de cet utilisateur. Pour cette raison, vous devrez disposer des autorisations appropriées pour
pouvoir modifier les fichiers appartenant à Nom d'utilisateur. Dans le cas de SQL, ce n'est généralement pas un
problème.

-C chemin, --configpath=chemin, --config-fichier=chemin
Utilisez le chemin spécifié pour localiser les fichiers de configuration distribués. Ignore le
répertoires par défaut (généralement "/usr/share/spamassassin" ou similaire).

--siteconfigpath=chemin
Utilisez le chemin spécifié pour localiser les fichiers de configuration spécifiques au site. Ignore le
répertoires par défaut (généralement "/etc/spamassassin" ou similaire).

--cf='config ligne'
Ajoutez des lignes de configuration supplémentaires directement à partir de la ligne de commande, analysées après le
les fichiers de configuration sont lus. Plusieurs --cf arguments peuvent être utilisés, et chacun sera
considéré comme une ligne de configuration distincte.

-p préfs, --prefspath=préfs, --fichier-prefs=préfs
Lire les préférences de score des utilisateurs à partir de préfs (généralement "$HOME/.spamassassin/user_prefs").

--le progrès
Imprime une barre de progression (sur STDERR) indiquant la progression actuelle. Dans le cas où non
terminal valide est trouvé, cette option se comportera comme l'option --showdots.

-D [Région,...], --déboguer [Région,...]
Produire une sortie de débogage. Si aucune zone n'est répertoriée, toutes les informations de débogage sont
imprimé. La sortie de diagnostic peut également être activée pour chaque zone individuellement ; la surface est le
zone du code à instrumenter. Par exemple, pour produire une sortie de diagnostic sur bayes,
apprendre, et DNS, utiliser :

spamassassin -D bayes,apprendre,dns

Pour plus d'informations sur les zones (également appelées canaux) disponibles, veuillez
voir la documentation sur :

C<http://wiki.apache.org/spamassassin/DebugChannels>

Messages d'information de priorité plus élevée qui conviennent à une connexion normale
circonstances sont disponibles avec une zone de "info".

--Pas de synchronisation
Ignorer l'étape de synchronisation lente qui a normalement lieu après le changement de base de données
entrées. Si vous prévoyez d'apprendre à partir de plusieurs dossiers dans un lot, ou d'apprendre plusieurs
messages individuels un par un, il est plus rapide d'utiliser ce commutateur et d'exécuter "sa-learn
--sync" une fois tous les dossiers analysés.

Clarification : L'état de --Pas de synchronisation remplace le bayes_learn_to_journal
possibilité de configuration. S'il n'est pas spécifié, sa-learn apprendra directement dans la base de données.
Si spécifié, sa-learn apprendra dans le fichier journal.

Attention: --sync ainsi que --Pas de synchronisation peut être spécifié sur la même ligne de commande, ce qui est légèrement
déroutant. Dans ce cas, le --Pas de synchronisation l'option est ignorée car il n'y a pas d'apprentissage
fonctionnement.

-L, --locale
N'effectuez aucun accès au réseau pendant l'apprentissage des détails sur les messages électroniques.
Cela accélérera le processus d'apprentissage, mais peut entraîner une précision légèrement inférieure.

Notez que ceci est actuellement ignoré, car les versions actuelles de SpamAssassin ne
accéder au réseau pendant l'apprentissage ; mais les versions futures peuvent.

--importer
Si vous avez déjà utilisé l'apprenant bayésien de SpamAssassin sans le module "DB_File"
installé, il aura créé des fichiers dans d'autres formats, tels que "GDBM_File",
"NDBM_File", ou "SDBM_File". Ce commutateur vous permet de migrer ces anciennes données vers le
Format "Fichier_DB". Il écrasera toutes les données actuellement dans le "DB_File".

Peut également être utilisé avec le --chemindb chemin option pour spécifier l'emplacement des Bayes
fichiers à utiliser.

MIGRATION

Il existe désormais plusieurs modules de stockage backend disponibles pour stocker les données bayésiennes de l'utilisateur.
En tant que tel, vous souhaiterez peut-être migrer d'un backend à un autre. Voici une procédure simple
pour migrer d'un backend à un autre.

Notez que si vous avez des bases de données utilisateur individuelles, vous devrez effectuer une opération similaire
procédure pour chacun d'eux.

sa-learn --sync
Cela synchronisera toutes les écritures de journal en suspens

sa-learn --backup > backup.txt
Cela enregistrera toutes vos données Bayes dans un fichier texte brut.

sa-learn --clear
C'est facultatif, mais c'est une bonne chose à faire pour effacer l'ancienne base de données.

Répéter!
À ce stade, si vous avez plusieurs bases de données, vous devez effectuer la procédure ci-dessus
pour chacun d'eux. (c'est-à-dire que la base de données de chaque utilisateur doit être sauvegardée avant de continuer.)

Changer de backend
Une fois que vous avez sauvegardé toutes les bases de données, vous pouvez mettre à jour votre configuration pour la nouvelle
back-end de la base de données. Cela impliquera au moins l'option de configuration bayes_store_module et
peut impliquer des options de configuration supplémentaires en fonction de ce qui est requis par le
module. (Par exemple, vous devrez peut-être configurer une base de données SQL.)

sa-learn --restore sauvegarde.txt
Encore une fois, vous devez le faire pour chaque base de données.

Si vous migrez vers SQL, vous pouvez utiliser le -u option en sa-apprendre à
remplir la base de données de chaque utilisateur. Sinon, vous devez exécuter sa-learn en tant qu'utilisateur qui base de données
vous restaurez.

INTRODUCTION À BAYÉSIEN Filtrage

(Merci à Michael Bell pour cette section !)

Pour une description plus détaillée de la façon dont cela fonctionne, allez à http://www.paulgraham.com/ et de voir
"Un plan pour le spam". C'est raisonnablement lisible, même si les statistiques me font éclater
urticaire.

La version courte semi-imprécise : Compte tenu de la formation, un moteur heuristique de spam peut prendre le
la plupart des mots « spam » et « hammy » et appliquez une analyse probabiliste. De plus, une fois donné
une base pour l'analyse, le moteur peut continuer à apprendre de manière itérative en appliquant à la fois
les ensembles de règles non bayésiennes et bayésiennes ensemble pour créer une « intelligence » évolutive.

SpamAssassin 2.50 et versions ultérieures prennent en charge l'analyse bayésienne du spam, sous la forme du BAYES
règles. Il s'agit d'une nouvelle fonctionnalité, assez puissante, qui est désactivée jusqu'à ce que suffisamment de messages aient
été appris.

Les avantages de l'analyse bayésienne du spam :

Peut réduire considérablement les faux positifs et les faux négatifs.
Il apprend de votre courrier, il est donc adapté à votre flux de courrier électronique unique.

Une fois qu'il commence à apprendre, il peut continuer à apprendre de SpamAssassin et s'améliorer au fil du temps.

Et les inconvénients:

Un nombre décent de messages est requis avant que les résultats ne soient utiles pour le jambon/spam
détermination.
Il est difficile d'expliquer pourquoi un message est ou n'est pas marqué comme spam.
c'est-à-dire : une règle simple, qui correspond, disons, "VIAGRA" est facile à comprendre. Si ça
génère un faux positif ou un faux négatif, il est assez facile de comprendre pourquoi.

Avec l'analyse bayésienne, ce ne sont que des probabilités - "parce que le passé dit qu'il est probable
car cela tombe dans une distribution probabiliste commune aux spams passés dans vos systèmes".
Dites-le à vos utilisateurs ! Dites-le au client lorsqu'il demande « que puis-je faire pour
changer ceci". (Au fait, la réponse dans ce cas est "utiliser la liste blanche".)

Cela prendra de l'espace disque et de la mémoire.
Les bases de données qu'il maintient nécessitent beaucoup de ressources à stocker et à utiliser.

OBTENIR A DÉBUTÉ

Toujours intéressé? Ok, voici les directives pour que cela fonctionne.

Tout d'abord un aperçu de haut niveau :

Construisez un échantillon significatif de jambon et de spam.
Je suggère plusieurs milliers de chacun, placés dans des répertoires ou des boîtes aux lettres SPAM et HAM.
Oui, vous DEVEZ trier cela à la main - sinon les résultats ne seront pas bien meilleurs que
SpamAssassin tout seul. Vérifiez le spam/haminess de CHAQUE message. Tu es
instamment d'éviter d'utiliser un corpus (échantillon) accessible au public - cela doit être tiré de
VOTRE serveur de messagerie, s'il doit être statistiquement utile. Sinon, les résultats peuvent être
assez biaisé.

Utilisez cet outil pour enseigner à SpamAssassin ces exemples, comme ceci :
sa-learn --spam /chemin/vers/spam/dossier
sa-learn --ham /chemin/vers/ham/dossier

Laissez SpamAssassin continuer, apprendre des trucs. Lorsqu'il trouvera du jambon et du spam, il ajoutera le
« jetons intéressants » dans la base de données.

Si vous avez besoin que SpamAssassin oublie des messages spécifiques, utilisez le --Oubliez option.
Cela peut être appliqué au jambon ou au spam qui a traversé le sa-apprendre procédés.
C'est un peu un coup de marteau, vraiment, de réduire la pondération des jetons spécifiques dans ce
message (uniquement si ce message a déjà été traité).

L'apprentissage à partir de messages uniques utilise une commande comme celle-ci :
sa-learn --ham --no-sync mailmessage

C'est pratique pour se lier à une clé dans votre agent d'utilisateur de messagerie. C'est très rapide, comme tout
les tâches fastidieuses sont différées jusqu'à ce que vous exécutiez l'option "--sync".

L'auto-apprentissage est activé par défaut
Si vous n'avez pas de corpus de courrier enregistré pour apprendre, vous pouvez laisser SpamAssassin
apprend automatiquement le courrier que vous recevez. Si vous apprenez automatiquement à partir de zéro,
la quantité de courrier que vous recevrez déterminera combien de temps avant que les règles BAYES_* soient
activé.

EFFICACE TRAINING

Les filtres d'apprentissage nécessitent une formation pour être efficaces. Si vous ne les entraînez pas, ils ne
travail. De plus, vous devez les former régulièrement avec de nouveaux messages pour les tenir à jour.
date, ou leurs données deviendront obsolètes et auront un impact sur l'exactitude.

Vous devez vous entraîner avec les deux spams ainsi que courriers de jambon. Un seul type de courrier n'aura aucun
effet.

Notez que si vos dossiers de messagerie contiennent des éléments tels que du spam transféré, les discussions sur le spam-
attraper des règles, etc., cela causera des problèmes. Vous devriez éviter d'analyser ces messages
si possible. (Un moyen simple de le faire est de les déplacer de côté, dans un dossier qui n'est pas
scanné.)

Si les messages dont vous apprenez ont déjà été filtrés via SpamAssassin, le
l'apprenant compensera cela. En effet, il apprend à quoi ressemblerait chaque message
si vous aviez exécuté "spamassassin -d" dessus à l'avance.

Une autre chose à savoir, c'est que vous devriez généralement viser à vous entraîner avec au moins 1000
messages de spam, et 1000 messages de jambon, si possible. Plus c'est mieux, mais tout est fini
environ 5000 messages n'améliorent pas significativement la précision dans nos tests.

Veillez à ce que vous vous entraîniez à partir de la même source - par exemple, si vous vous entraînez sur les anciens spams,
mais un nouveau courrier de jambon, alors le classificateur pensera qu'un courrier avec un ancien horodatage est
susceptible d'être du spam.

Il est également intéressant de noter que l'entraînement avec une très petite quantité de jambon produira
résultats atroces. Vous devriez viser à vous entraîner avec au moins la même quantité (ou plus si
possible !) de données de jambon que de spam.

Sur une base continue, il est préférable de continuer à entraîner le filtre pour s'assurer qu'il a de nouveaux
données à partir desquelles travailler. Il ya différentes manière de faire ceci:

1. Apprentissage supervisé
Cela signifie conserver une copie de tout ou de la majeure partie de votre courrier, séparé en spam et jambon
tas, et périodiquement le recyclage en utilisant ceux-ci. Il produit les meilleurs résultats, mais
nécessite plus de travail de votre part, l'utilisateur.

(Un moyen simple de le faire, soit dit en passant, est de créer un nouveau dossier pour les messages « supprimés »,
et au lieu de les supprimer d'autres dossiers, déplacez-les simplement à la place.
Conservez ensuite tous les spams dans un dossier séparé et ne les supprimez jamais. Tant que tu te souviens
pour déplacer les e-mails mal classés dans le bon ensemble de dossiers, il est assez facile de suivre
à ce jour.)

2. Apprentissage non supervisé de la classification bayésienne
Une autre façon de s'entraîner consiste à enchaîner les résultats du classificateur bayésien dans le
formation, de sorte qu'il renforce ses propres décisions. Ceci n'est sûr que si vous vous recyclez ensuite
en fonction des erreurs que vous découvrirez.

SpamAssassin ne prend pas en charge cette méthode, en raison de résultats expérimentaux qui
indiquent que cela ne fonctionne pas bien, et puisque Bayes n'est qu'une partie du résultat
score présenté à l'utilisateur (alors que Bayes a peut-être pris la mauvaise décision à propos d'un
mail, il a peut-être été remplacé par un autre système).

3. Apprentissage non supervisé des règles de SpamAssassin
Également appelé « auto-apprentissage » dans SpamAssassin. Sur la base d'une analyse statistique de la
Taux de réussite de SpamAssassin, nous pouvons entraîner automatiquement la base de données bayésienne avec un
certain degré de confiance que nos données d'entraînement sont exactes.

Elle doit être complétée par une formation encadrée en plus, si possible.

Ceci est la valeur par défaut, mais peut être désactivé en définissant la configuration de SpamAssassin
paramètre "bayes_auto_learn" à 0.

4. Formation basée sur les erreurs
Cela signifie s'entraîner sur un petit nombre de mails, puis uniquement s'entraîner sur les messages qui
SpamAssassin classe de manière incorrecte. Cela fonctionne, mais il faut plus de temps pour bien faire les choses
qu'une session de formation complète ne le ferait.

Utiliser sa-learnp en ligne à l'aide des services onworks.net