InglêsFrancêsEspanhol

favicon do OnWorks

mailcross - Online na nuvem

Execute mailcross no provedor de hospedagem gratuita OnWorks no Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS

Este é o comando mailcross que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS

PROGRAMA:

NOME


mailcross - um simulador de validação cruzada para uso com dbacl.

SINOPSE


mailcross comando [ argumentos_de_comando ]

DESCRIÇÃO


mailcross automatiza a tarefa de validação cruzada de filtragem e classificação de e-mail
programas como dbacl(1). Dado um conjunto de documentos categorizados, o mailcross inicia
simulação é executado para estimar os erros de classificação e, assim, permite o ajuste fino de
os parâmetros do classificador.

A validação cruzada é um método amplamente utilizado para comparar a qualidade da classificação
e algoritmos de aprendizagem, e como tal permite comparações rudimentares entre aqueles
classificadores que fazem uso de dbacl(1) e bayesol(1), e outros classificadores concorrentes.

A mecânica da validação cruzada é a seguinte: Um conjunto de mensagens de e-mail pré-classificadas
é primeiro dividido em vários subconjuntos de tamanhos aproximadamente iguais. Para cada subconjunto, o filtro
(por padrão, dbacl(1)) é usado para classificar cada mensagem dentro deste subconjunto, com base em
tendo aprendido as categorias dos subconjuntos restantes. A classificação resultante
os erros são então calculados em média em todos os subconjuntos.

Os resultados obtidos por validação cruzada não dependem essencialmente da ordenação de
os e-mails de amostra. Outros métodos (ver Mailtoe(1)pé de correio(1)) tentativa de capturar o
comportamento dos erros de classificação ao longo do tempo.

mailcross usa as variáveis ​​de ambiente MAILCROSS_LEARNER e MAILCROSS_FILTER quando
execução, que permite a validação cruzada de filtros arbitrários, desde que satisfaçam
as condições de compatibilidade declaradas na seção AMBIENTE abaixo.

Por conveniência, mailcross implementa um suíte de teste framework com wrappers predefinidos para
vários classificadores de código aberto. Isso permite a comparação direta de dbacl(1) com
classificadores concorrentes no mesmo conjunto de amostras de e-mail. Consulte a seção USO abaixo.

Durante a preparação, mailcross constrói um subdiretório chamado mailcross.d no atual
diretório de trabalho. Todos os cálculos necessários são executados dentro deste subdiretório.

SAIR STATUS


mailcross retorna 0 em caso de sucesso, 1 se ocorreu um problema.

COMANDOS


preparar tamanho
Prepara um subdiretório chamado mailcross.d no diretório de trabalho atual, e
preenche-o com subdiretórios vazios para exatamente tamanho subconjuntos.

adicionar categoria [ARQUIVO]...
Pega um conjunto de e-mails de FILE, se especificado, ou STDIN, e os associa
com categoria. Todos os e-mails são distribuídos aleatoriamente nos subdiretórios de
mailcross.d para uso posterior. Para cada categoria, este comando pode ser repetido vários
vezes, mas deve ser executado pelo menos uma vez.

limpar Exclui o diretório mailcross.d e todo o seu conteúdo.

aprende Para cada subconjunto previamente criado de mensagens de e-mail, pré-aprende todas as categorias
com base no conteúdo de todos os subconjuntos, exceto este. o argumentos_de_comando
são passados ​​para MAILCROSS_LEARNER.

corrida Para cada subconjunto de mensagens de e-mail criado anteriormente, realiza a classificação
com base nas categorias pré-aprendidas associadas a todos, exceto a este subconjunto. o
argumentos_de_comando são passados ​​para MAILCROSS_FILTER.

resumir
Imprime estatísticas para a última execução de validação cruzada.

rever gato verdadeiro predcat
Verifica as estatísticas da última execução e extrai todas as mensagens que pertencem ao
categoria gato verdadeiro mas foram classificados na categoria predcat. O extraído
as mensagens são copiadas para o diretório mailcross.d / review para leitura.

suíte de teste Lista
Mostra uma lista de filtros / scripts de wrapper disponíveis que podem ser selecionados.

suíte de teste selecionar [FILTRO]...
Prepara o (s) filtro (s) nomeado (s) FILTRO para ser usado para simulação. O nome do filtro é
o nome de um script wrapper localizado no diretório / usr / share / dbacl / testsuite.
Cada filtro possui uma interface rígida documentada abaixo, e o ato de selecioná-lo
copia para o mailcross.d / filters diretório. Apenas filtros localizados lá são usados
nas simulações.

suíte de teste desmarcar [FILTRO]...
Remove o (s) filtro (s) nomeado (s) do diretório mailcross.d / filters de modo que eles são
não usado na simulação.

suíte de teste corrida
Invoca todos os filtros selecionados nos conjuntos de dados adicionados anteriormente e calcula
taxas de classificação incorreta.

suíte de teste estado
Descreve as simulações programadas.

suíte de teste resumir
Mostra os resultados da validação cruzada para todos os filtros. Só faz sentido após o corrida
comando.

USO


O padrão de uso normal é o seguinte: primeiro, você deve separar seu e-mail
coleção em várias categorias (manualmente ou não). Cada categoria deve ser
associado a uma ou mais pastas, mas cada pasta não deve conter mais de um
categoria. Em seguida, você deve decidir quantos subconjuntos usar, digamos 10. Observe que muitos
os subconjuntos irão desacelerar os cálculos rapidamente. Agora você pode digitar

% mailcross preparar 10

Em seguida, para cada categoria, você deve adicionar todas as pastas associadas a esta categoria. Suponha
você tem três categorias nomeadas Spam, trabalho e play, que estão associados ao mbox
arquivos spam.mbox, trabalho.mbox e play.mbox respectivamente. Você digitaria

% mailcross adicionar spam spam.mbox
% mailcross adicionar trabalho work.mbox
% mailcross adicionar play play.mbox

Agora você pode realizar quantas simulações desejar. Cada validação cruzada consiste em um
aprendizagem, uma fase de corrida e uma de resumo. Essas operações são realizadas no
classificador especificado nas variáveis ​​MAILCROSS_FILTER e MAILCROSS_LEARNER. Pela configuração
essas variáveis ​​de forma adequada, você pode comparar o desempenho da classificação à medida que varia o
opções de linha de comando de seu (s) classificador (es).

% mailcross aprender
% execução de mailcross
% mailcross resumir

Os comandos do testsuite são projetados para simplificar as etapas acima e permitir a comparação de um
ampla gama de classificadores de e-mail, incluindo, mas não se limitando a dbacl. Classificadores são
suportado por meio de scripts de wrapper, que estão localizados no / usr / share / dbacl / testsuite
diretório.

O primeiro estágio ao usar o conjunto de teste é decidir quais classificadores comparar. Vocês
pode ver uma lista de wrappers disponíveis digitando:

% lista de suítes de testes mailcross

Observe que os scripts de wrapper NÃO são os classificadores de e-mail reais, que devem ser
instalado separadamente pelo administrador do sistema ou de outra forma. Uma vez feito isso, você
pode selecionar um ou mais wrappers para a simulação digitando, por exemplo:

% mailcross testsuite selecione dbaclA ifile

Se alguns dos classificadores selecionados não puderem ser encontrados no sistema, eles não serão selecionados.
Observe também que alguns wrappers podem ter nomes de categoria embutidos em código, por exemplo, se o classificador
suporta apenas classificação binária. Preste atenção às mensagens de aviso.

Resta apenas executar a simulação. Cuidado, isso pode levar muito tempo (várias horas
dependendo do classificador).

% mailcross testsuite executado
% mailcross testsuite resumir

Quando todas as simulações estiverem concluídas, você pode excluir os arquivos de trabalho, arquivos de log, etc.
digitando

% mailcross limpo

O progresso da validação cruzada é escrito silenciosamente em vários arquivos de log que são
localizado no mailcross.d / log diretório. Verifique-os em caso de problemas.

SCRIPT INTERFACE


mailcross suíte de teste cuida de aprender e classificar seus corpora de e-mail preparados para
cada classificador selecionado. Uma vez que os classificadores têm interfaces amplamente variadas, isso é apenas
possível envolvendo essas interfaces individualmente em um formato padrão que pode ser usado
by mailcross suíte de teste.

Cada script wrapper é uma ferramenta de linha de comando que aceita um único comando seguido de zero
ou mais argumentos opcionais, na forma padrão:

comando wrapper [argumento] ...

Cada script de wrapper também usa STDIN e STDOUT de uma maneira bem definida. Se não
comportamento é descrito, então nenhuma saída ou entrada deve ser usada. Os comandos possíveis são
Descrito abaixo:

filtro Neste caso, um único e-mail é esperado em STDIN, e uma lista de nomes de arquivo de categoria
é esperado em $ 2, $ 3, etc. O script escreve o nome da categoria correspondente a
o e-mail de entrada em STDOUT. Nenhuma nova linha final é necessária ou esperada.

aprender Neste caso, um fluxo mbox padrão é esperado em STDIN, enquanto um adequado
o nome do arquivo da categoria é esperado em $ 2. Nenhuma saída é gravada em STDOUT.

limpo Neste caso, um diretório é esperado em $ 2, que é examinado para banco de dados antigo
em formação. Se algum banco de dados antigo for encontrado, ele será eliminado ou reconfigurado. Nenhuma saída é
escrito para STDOUT.

descreve
Neste caso, uma única linha de texto é gravada em STDOUT, descrevendo o filtro
funcionalidade. A linha deve ser mantida curta para evitar quebra de linha em um
terminal.

inicialização
Nesse caso, um diretório é esperado em $ 2. O script wrapper primeiro verifica
a existência de seu classificador associado e outros pré-requisitos. Se o cheque
for bem-sucedido, o wrapper será clonado no diretório fornecido. Uma cortesia
a notificação deve ser dada em STDOUT para expressar sucesso ou fracasso. Isso é também
permissível para fornecer advertências de descrições mais longas.

dedo do pé usado por Mailtoe(1).

pé usado por pé de correio(1).

MEIO AMBIENTE


Logo após o carregamento, mailcross lê o arquivo oculto .mailcrossrc no diretório $ HOME,
se existir, então este seria um bom lugar para definir valores personalizados para o ambiente
variáveis.

MAILCROSS_FILTER
Esta variável contém um comando shell a ser executado repetidamente durante a execução
estágio. O comando deve aceitar uma mensagem de e-mail em STDIN e gerar um resultado
Nome da Categoria. Ele também deve aceitar uma lista de nomes de arquivo de categoria no comando
linha. Se indefinido, mailcross usa o valor padrão MAILCROSS_FILTER = "dbacl -T
email -T xml -v "(e também adiciona magicamente a opção -c antes de cada categoria).

MAILCROSS_LEARNER
Esta variável contém um comando shell a ser executado repetidamente durante o
estágio de aprendizagem. O comando deve aceitar um fluxo de e-mails do tipo mbox em STDIN para
aprendizagem e o nome do arquivo da categoria na linha de comando. Se indefinido,
mailcross usa o valor padrão MAILCROSS_LEARNER = "dbacl -H 19 -T email -T xml
-eu".

TEMPIR
Este diretório é exportado para o benefício de scripts de wrapper. Scripts que precisam
para criar arquivos temporários deve colocá-los no local fornecido no TEMPDIR.

NOTAS


O subdiretório mailcross.d pode crescer bastante. Ele contém uma cópia completa do treinamento
corpora, bem como arquivos de aprendizagem para tamanho vezes todas as categorias adicionadas e vários
arquivos de log.

ATENÇÃO


A validação cruzada é um procedimento amplamente utilizado, mas estatístico ad-hoc, completamente não relacionado
à teoria bayesiana, e sujeito a controvérsia. Use isso a seu próprio risco.

FONTE


O código-fonte para a versão mais recente deste programa está disponível no seguinte
Localizações:

http://www.lbreyer.com/gpl.html
http://dbacl.sourceforge.net

Use mailcross online usando serviços onworks.net


Servidores e estações de trabalho gratuitos

Baixar aplicativos Windows e Linux

Comandos Linux

  • 1
    4g8
    4g8
    4g8 - Captura e Interceptação de Pacotes
    para redes comutadas...
    Executar 4g8
  • 2
    4s-adminJ
    4s-adminJ
    Gerenciamento de cluster 4s-admin � 4store
    ferramenta ...
    Execute 4s-adminJ
  • 3
    creditar
    creditar
    creduce - redutor de programa C e C ++
    DESCRIÇÃO: creduce 2.5.0 (desconhecido) --
    um redutor de programa C e C++ C-Reduce
    requer um "teste de interesse" e
    um ou ...
    Executar creduce
  • 4
    arrepiante
    arrepiante
    CREEPY - Uma informação de geolocalização
    agregador DESCRIÇÃO: creepy é um
    aplicativo que permite reunir
    informações relacionadas à geolocalização sobre
    usuários de...
    Corra assustador
  • 5
    g.gisenvgrass
    g.gisenvgrass
    g.gisenv - Gera e modifica o
    configurações atuais da variável GRASS do usuário.
    Imprime todas as variáveis ​​GRASS definidas se não
    opção é dada. PALAVRAS-CHAVE: geral,
    estabelecendo ...
    Execute g.gisenvgrass
  • 6
    g.guigrass
    g.guigrass
    g.gui - Lança um usuário gráfico GRASS
    sessão de interface (GUI). Opcionalmente
    atualiza as configurações padrão da interface do usuário.
    PALAVRAS-CHAVE: geral, GUI, interface de usuário...
    Execute g.guigrass
  • Mais "

Ad