Amazon Best VPN GoSearch

Icône de favori OnWorks

mailcross - En ligne dans le Cloud

Exécutez mailcross dans le fournisseur d'hébergement gratuit OnWorks sur Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

Il s'agit de la commande mailcross qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

PROGRAMME:

Nom


mailcross - un simulateur de validation croisée à utiliser avec dbacl.

SYNOPSIS


courrier commander [ arguments_commande ]

DESCRIPTION


courrier automatise la tâche de validation croisée du filtrage et de la classification des e-mails
des programmes tels que dbacl(1). Étant donné un ensemble de documents catégorisés, le mailcross initie
la simulation s'exécute pour estimer les erreurs de classification et permet ainsi un réglage fin de
les paramètres du classificateur.

La validation croisée est une méthode largement utilisée pour comparer la qualité de la classification
et des algorithmes d'apprentissage, et en tant que tel permet des comparaisons rudimentaires entre ces
classificateurs qui utilisent dbaclde Géographie (1) et avec la bayésol(1), et d'autres classificateurs concurrents.

Les mécanismes de validation croisée sont les suivants : Un ensemble de messages électroniques pré-classifiés
est d'abord divisé en un certain nombre de sous-ensembles de taille à peu près égale. Pour chaque sous-ensemble, le filtre
(par défaut, dbacl(1)) est utilisé pour classer chaque message dans ce sous-ensemble, en fonction de
ayant appris les catégories des sous-ensembles restants. Le classement qui en résulte
les erreurs sont ensuite moyennées sur tous les sous-ensembles.

Les résultats obtenus par validation croisée ne dépendent essentiellement pas de l'ordre des
les exemples d'e-mails. D'autres méthodes (voir courrier(1),pied de courrier(1)) tenter de capturer le
comportement des erreurs de classification dans le temps.

courrier utilise les variables d'environnement MAILCROSS_LEARNER et MAILCROSS_FILTER lorsque
l'exécution, qui permet la validation croisée de filtres arbitraires, à condition qu'ils satisfassent
les conditions de compatibilité énoncées dans la section ENVIRONNEMENT ci-dessous.

Pour plus de commodité, courrier met en œuvre un suite de tests framework avec des wrappers prédéfinis pour
plusieurs classificateurs open source. Cela permet la comparaison directe de dbacl(1) avec
classificateurs concurrents sur le même ensemble d'échantillons d'e-mails. Voir la section UTILISATION ci-dessous.

Lors de la préparation, courrier construit un sous-répertoire nommé mailcross.d dans le
directeur de travail. Tous les calculs nécessaires sont effectués dans ce sous-répertoire.

EXIT STATUT


courrier renvoie 0 en cas de succès, 1 si un problème est survenu.

COMMANDES


préparer Taille
Prépare un sous-répertoire nommé mailcross.d dans le répertoire de travail courant, et
le remplit avec des sous-répertoires vides pour exactement Taille sous-ensembles.

ajouter category [FICHIER]...
Prend un ensemble d'e-mails à partir de FILE si spécifié, ou de STDIN, et les associe
avec category. Tous les e-mails sont répartis de manière aléatoire dans les sous-répertoires de
mailcross.d pour une utilisation ultérieure. Pour chaque category, cette commande peut être répétée plusieurs
fois, mais doit être exécuté au moins une fois.

espace extérieur plus propre, Supprime le répertoire mailcross.d et tout son contenu.

en apprendre Pour chaque sous-ensemble d'e-mails précédemment construit, pré-apprend toutes les catégories
basé sur le contenu de tous les sous-ensembles sauf celui-ci. Les arguments_commande
sont passés à MAILCROSS_LEARNER.

courir Pour chaque sous-ensemble d'e-mails précédemment construit, effectue la classification
sur la base des catégories pré-apprises associées à tout sauf à ce sous-ensemble. Les
arguments_commande sont passés à MAILCROSS_FILTER.

résumé
Imprime les statistiques de la dernière exécution de validation croisée.

évaluation vrai chat chat prédateur
Analyse les statistiques de la dernière exécution et extrait tous les messages qui appartiennent à
category vrai chat mais ont été classés dans la catégorie chat prédateur. L'extrait
les messages sont copiés dans le répertoire mailcross.d/review pour lecture.

suite de tests liste
Affiche une liste des filtres/scripts wrapper disponibles qui peuvent être sélectionnés.

suite de tests Sélectionner [FILTRE]...
Prépare le(s) filtre(s) nommé(s) FILTRE à utiliser pour la simulation. Le nom du filtre est
le nom d'un script wrapper situé dans le répertoire /usr/share/dbacl/testsuite.
Chaque filtre a une interface rigide documentée ci-dessous, et le fait de le sélectionner
le copie dans le mailcross.d/filtres annuaire. Seuls les filtres qui s'y trouvent sont utilisés
dans les simulations.

suite de tests désélectionner [FILTRE]...
Supprime le(s) filtre(s) nommé(s) du répertoire mailcross.d/filtres pour qu'ils soient
pas utilisé dans la simulation.

suite de tests courir
Appelle chaque filtre sélectionné sur les ensembles de données ajoutés précédemment et calcule
taux de mauvaise classification.

suite de tests statuts
Décrit les simulations programmées.

suite de tests résumé
Affiche les résultats de la validation croisée pour tous les filtres. n'a de sens qu'après la courir
commander.

UTILISATION


Le modèle d'utilisation normal est le suivant : d'abord, vous devez séparer votre e-mail
collecte en plusieurs catégories (manuellement ou autrement). Chaque catégorie doit être
associé à un ou plusieurs dossiers, mais chaque dossier ne doit pas contenir plus d'un
Catégorie. Ensuite, vous devez décider du nombre de sous-ensembles à utiliser, disons 10. Notez que trop
les sous-ensembles ralentiront rapidement les calculs. Vous pouvez maintenant taper

% mailcross préparer 10

Ensuite, pour chaque catégorie, vous devez ajouter chaque dossier associé à cette catégorie. Supposer
vous avez trois catégories nommées le spam, travailou jeux et sport, qui sont associés à la mbox
fichiers spam.mbox, travail.mboxou jouer.mbox respectivement. tu taperais

% mailcross ajouter du spam spam.mbox
% mailcross ajouter du travail work.mbox
% mailcross ajouter play play.mbox

Vous pouvez maintenant effectuer autant de simulations que vous le souhaitez. Chaque validation croisée consiste en un
d'apprentissage, une étape de course et une étape de synthèse. Ces opérations sont effectuées sur le
classificateur spécifié dans les variables MAILCROSS_FILTER et MAILCROSS_LEARNER. En définissant
ces variables de manière appropriée, vous pouvez comparer les performances de classification en faisant varier le
les options de ligne de commande de votre (vos) classificateur(s).

% d'apprentissage mailcross
% d'exécution de mailcross
% mailcross résumer

Les commandes de la suite de tests sont conçues pour simplifier les étapes ci-dessus et permettre la comparaison d'un
large éventail de classificateurs d'e-mails, y compris, mais sans s'y limiter, dbacl. Les classificateurs sont
pris en charge par les scripts wrapper, qui sont situés dans le /usr/share/dbacl/testsuite
répertoire.

La première étape lors de l'utilisation de la suite de tests consiste à décider quels classificateurs comparer. Tu
pouvez afficher une liste des wrappers disponibles en tapant :

% liste de suites de tests mailcross

Notez que les scripts wrapper ne sont PAS les classificateurs d'e-mails réels, qui doivent être
installé séparément par votre administrateur système ou autrement. Une fois cela fait, vous
pouvez sélectionner un ou plusieurs wrappers pour la simulation en tapant, par exemple :

% mailcross testsuite sélectionnez dbaclA iffile

Si certains des classificateurs sélectionnés ne peuvent pas être trouvés sur le système, ils ne sont pas sélectionnés.
Notez également que certains wrappers peuvent avoir des noms de catégorie codés en dur, par exemple si le classificateur
ne prend en charge que la classification binaire. Tenez compte des messages d'avertissement.

Il ne reste plus qu'à lancer la simulation. Attention, cela peut prendre beaucoup de temps (plusieurs heures
selon le classificateur).

% d'exécution de la suite de tests mailcross
Résumé de la suite de tests mailcross %

Une fois que vous avez terminé avec les simulations, vous pouvez supprimer les fichiers de travail, les fichiers journaux, etc.
en tapant

% de mailcross propre

La progression de la validation croisée est écrite silencieusement dans divers fichiers journaux qui sont
situé dans le mailcross.d/log annuaire. Vérifiez-les en cas de problème.

SCÉNARIO INTERFACE


courrier suite de tests s'occupe d'apprendre et de classer vos corpus d'e-mails préparés pour
chaque classificateur sélectionné. Étant donné que les classificateurs ont des interfaces très différentes, ce n'est que
possible en enveloppant ces interfaces individuellement dans un formulaire standard qui peut être utilisé
by courrier suite de tests.

Chaque script wrapper est un outil de ligne de commande qui accepte une seule commande suivie de zéro
ou plusieurs arguments facultatifs, sous la forme standard :

commande wrapper [argument]...

Chaque script wrapper utilise également STDIN et STDOUT d'une manière bien définie. Sinon
comportement est décrit, aucune sortie ou entrée ne doit être utilisée. Les commandes possibles sont
décrit ci-dessous:

filter Dans ce cas, un seul email est attendu sur STDIN, et une liste de noms de fichiers de catégorie
est attendu dans $2, $3, etc. Le script écrit le nom de la catégorie correspondant à
l'e-mail d'entrée sur STDOUT. Aucune nouvelle ligne de fin n'est requise ou attendue.

learn Dans ce cas, un flux mbox standard est attendu sur STDIN, tandis qu'un
le nom du fichier de catégorie est attendu dans $2. Aucune sortie n'est écrite sur STDOUT.

clean Dans ce cas, un répertoire est attendu dans $2, qui est examiné pour l'ancienne base de données
informations. Si d'anciennes bases de données sont trouvées, elles sont purgées ou réinitialisées. Aucune sortie n'est
écrit sur STDOUT.

décrire
DANS ce cas, une seule ligne de texte est écrite dans STDOUT, décrivant le filtre
Fonctionnalité. La ligne doit être courte pour éviter que la ligne ne s'enroule sur un
Terminal.

bootstrap
Dans ce cas, un répertoire est attendu en $2. Le script wrapper vérifie d'abord
l'existence de son classificateur associé, et d'autres conditions préalables. Si le chèque
réussit, le wrapper est cloné dans le répertoire fourni. Une courtoisie
une notification doit être donnée sur STDOUT pour exprimer le succès ou l'échec. C'est aussi
permis de donner des mises en garde de descriptions plus longues.

orteil utilisé par courrier (1).

pied Utilisé par pied de courrier (1).

ENVIRONNEMENT


Juste après le chargement, courrier lit le fichier caché .mailcrossrc dans le répertoire $HOME,
s'il existe, ce serait donc un bon endroit pour définir des valeurs personnalisées pour l'environnement
variables.

MAILCROSS_FILTER
Cette variable contient une commande shell à exécuter à plusieurs reprises pendant l'exécution
organiser. La commande doit accepter un message électronique sur STDIN et générer un résultat
Nom de catégorie. Il devrait également accepter une liste de noms de fichiers de catégorie sur la commande
ligne. Si non défini, courrier utilise la valeur par défaut MAILCROSS_FILTER="dbacl -T
email -T xml -v" (et ajoute aussi comme par magie l'option -c avant chaque catégorie).

MAILCROSS_LEARNER
Cette variable contient une commande shell à exécuter à plusieurs reprises au cours de la
stade d'apprentissage. La commande doit accepter un flux d'e-mails de type mbox sur STDIN pour
learning, et le nom de fichier de la catégorie sur la ligne de commande. Si non défini,
courrier utilise la valeur par défaut MAILCROSS_LEARNER="dbacl -H 19 -T email -T xml
-l".

REPÉRTEMP
Ce répertoire est exporté au profit des scripts wrapper. Scripts qui ont besoin
pour créer des fichiers temporaires, vous devez les placer à l'emplacement indiqué dans TEMPDIR.

NOTES


Le sous-répertoire mailcross.d peut devenir assez volumineux. Il contient une copie complète de la formation
corpus, ainsi que des fiches d'apprentissage pour Taille fois toutes les catégories ajoutées, et divers
fichiers journaux

ATTENTION


La validation croisée est une procédure statistique largement utilisée, mais ad-hoc, sans aucun rapport
à la théorie bayésienne, et sujet à controverse. Utilisez-le à vos risques et périls.

SOURCE


Le code source de la dernière version de ce programme est disponible à l'adresse suivante
Emplacements:

http://www.lbreyer.com/gpl.html
http://dbacl.sourceforge.net

Utilisez mailcross en ligne en utilisant les services onworks.net


Serveurs et postes de travail gratuits

Télécharger des applications Windows et Linux

Commandes Linux

Ad




×
Publicité
❤ ️Achetez, réservez ou achetez ici — gratuitement, contribue à maintenir la gratuité des services.