bogofilter-bdb - Online en la nube

Ejecute bogofilter-bdb en el proveedor de alojamiento gratuito de OnWorks a través de Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS

Este es el comando bogofilter-bdb que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.

Ejecutar en Ubuntu Ejecutar en Fedora Ejecutar en Windows Sim Ejecutar en MACOS Sim

PROGRAMA:

NOMBRE

bogofilter - filtro de spam bayesiano rápido

SINOPSIS

bogofiltro [opciones de ayuda | opciones de clasificación | opciones de registro |
opciones de parámetro | opciones de información] [opciones generales] [opciones de archivo de configuración]

donde

ayuda opciones son:

[-h] [--ayuda] [-V] [-Q]

classification opciones son:

[-p] [-e] [-t] [-T] [-u] [-H] [-M] [-b] [-B objeto ...] [-R] [opciones generales]
[opciones de parámetro] [opciones de archivo de configuración]

los resultados opciones son:

[-s | -n] [-S | -N] [opciones generales]

general opciones son:

[-C nombre de archivo] [-CD dir] [-k tamaño del caché] [-l] [-L etiqueta] [-YO nombre de archivo] [-O nombre de archivo]

parámetro opciones son:

[-MI valor [, valor]] [-m valor [, valor] [, valor]] [-o valor [, valor]]

info opciones son:

[-v] [-y datos] [-D] [-x banderas]

config presentar opciones son:

[-opción = valor]

Nota: El uso bogofiltro --ayuda para mostrar la lista completa de opciones.

DESCRIPCIÓN

Bogofilter es un filtro de spam bayesiano. En su modo normal de funcionamiento, necesita un correo electrónico
mensaje u otro texto en la entrada estándar, hace una verificación estadística contra listas de "buenos"
y palabras "malas", y devuelve un código de estado que indica si el mensaje es spam o no.
Bogofilter está diseñado con un algoritmo rápido, utiliza Berkeley DB para un inicio rápido y
búsquedas, codificado directamente en C y ajustado para la velocidad, por lo que puede ser utilizado para la producción por
sitios que procesan mucho correo.

TEORÍA OF FUNCIONAMIENTO

Bogofilter trata su entrada como una bolsa de fichas. Cada ficha se compara con una lista de palabras,
que mantiene recuentos de la cantidad de veces que se ha producido en correos no spam y spam.
Estos números se utilizan para calcular una estimación de la probabilidad de que un mensaje en el que
el token que se produce es spam. Se combinan para indicar si el mensaje es spam o
jamón.

Si bien este método suena burdo en comparación con el enfoque de coincidencia de patrones más habitual,
resulta ser extremadamente eficaz. Papel de Paul Graham A Planes Para Spam[1] se recomienda
leyendo.

Este programa mejora sustancialmente la propuesta de Paul al realizar un análisis léxico más inteligente.
Bogofilter realiza una decodificación MIME adecuada y un análisis de HTML razonable. Tipos especiales de
tokens como nombres de host y direcciones IP se conservan como funciones de reconocimiento en lugar de
roto. Se ignoran varios tipos de MTA cruft, como fechas e ID de mensaje, para no
para inflar la lista de palabras. Los tokens que se encuentran en varios campos de encabezado están marcados de manera apropiada.

Otra mejora es que este programa ofrece modificaciones sugeridas por Gary Robinson para
los cálculos (consulte los parámetros robx y robs a continuación). Estas modificaciones son
descrito en el artículo de Robinson Spam Detección[2].

Desde entonces, Robinson (consulte su artículo de Linux Journal A Estadístico Un nuevo enfoque a los Spam
Problema[3]) y otros se han dado cuenta de que el cálculo se puede optimizar aún más utilizando
Método de Fisher. Otra es la mejora continua[4] compensa la redundancia de token aplicando
separe los factores de tamaño efectivo (ESF) de los cálculos de probabilidad de spam y no spam.

En resumen, así es como funciona: las estimaciones de las probabilidades de spam del individuo
los tokens se combinan utilizando la "función chi-cuadrado inversa". Su valor indica cuán mal
la hipótesis nula de que el mensaje es solo una colección aleatoria de palabras independientes con
las probabilidades dadas por nuestras estimaciones anteriores fallan. Esta función es muy sensible a
probabilidades pequeñas (palabras hammish), pero no a altas probabilidades (palabras spammish); asi que
el valor solo indica fuertes signos hammish en un mensaje. Ahora usando inverso
probabilidades para los tokens, se vuelve a realizar el mismo cálculo, dando un indicador de que
un mensaje se ve muy espasmódico. Finalmente, esos dos indicadores se restan (y
escala en un intervalo 0-1). Este indicador combinado (bogosidad) está cerca de 0 si los signos
para un mensaje hammish son más fuertes que para un mensaje spam y cerca de 1 si el
la situación es al revés. Si los signos de ambos son igualmente fuertes, el valor será
cerca de 0.5. Dado que esos mensajes no dan una indicación clara, hay un modo triestado en
bogofilter para marcar esos mensajes como inseguros, mientras que los mensajes claros se marcan como spam
o jamón, respectivamente. En el modo de dos estados, cada mensaje se marca como spam o ham.

Varios parámetros influyen en estos cálculos, los más importantes son:

robx: la puntuación que se le da a una ficha que no se ha visto antes. robx es la probabilidad de que
el token es espasmódico.

robs: un peso en robx que mueve la probabilidad de una pequeña ficha vista hacia robx.

min-dev: una distancia mínima de .5 para que los tokens se utilicen en el cálculo. Solo tokens
más lejos de 0.5 que este valor se utilizan.

spam-cutoff: los mensajes con puntuaciones superiores o iguales a se marcarán como spam.

ham-cutoff: si es cero o spam-cutoff, todos los mensajes con valores estrictamente por debajo de spam-cutoff
están marcados como jamón, todos los demás como spam (dos estados). Los demás valores menores o iguales a
ham-cutoff se marcan como ham, mensajes con valores estrictamente entre ham-cutoff y
el corte de correo no deseado está marcado como inseguro; el resto como spam (tristate)

sp-esf: el factor de tamaño efectivo (ESF) para el spam.

ns-esf: el FSE para no spam. Estos valores de ESF están predeterminados en 1.0, que es lo mismo que no
utilizando ESF en el cálculo. Los valores adecuados para la población de correo electrónico de un usuario pueden ser
determinado con la ayuda del programa bogotune.

OPCIONES

OPCIONES DE AYUDA

Los -h La opción imprime el mensaje de ayuda y sale.

Los -V La opción imprime el número de versión y sale.

Los -Q La opción (consulta) imprime la configuración del bogofilter, es decir, los parámetros de registro,
opciones de análisis, directorio bogofilter, etc.

OPCIONES DE CLASIFICACIÓN

Los -p (passthrough) genera el mensaje con una línea X-Bogosity al final de la
encabezado del mensaje. Esto requiere mantener todo el mensaje en la memoria cuando se lee
stdin (o de una tubería o enchufe). Si el mensaje se lee de un archivo que se puede rebobinar,
bogofilter lo leerá por segunda vez.

Los -e La opción (incrustar) le dice a bogofilter que salga con el código 0 si el mensaje puede ser
clasificado, es decir, si no hay error. Normalmente bogofilter utiliza códigos diferentes para
spam, jamón y clasificaciones no seguras, pero esto simplifica el uso de bogofilter con procmail
o maildrop.

Los -t La opción (concisa) le dice a bogofilter que imprima un mensaje de espamicidad abreviado
que contiene 1 letra y la partitura. El spam se indica con "Y", jamón con "N" y no seguro con
"U". Nota: el formato se puede personalizar usando el archivo de configuración.

Los -T proporciona un modo conciso invariante para que lo utilicen los scripts. bogofilter imprimirá un
mensaje de espamicidad abreviado que contiene 1 letra y la puntuación. El spam se indica con
"S", jamón por "H" e inseguro por "U".

Los -TT proporciona un modo conciso invariante para que lo utilicen los scripts. Bogofilter imprime solo el
puntuación y la muestra en 16 dígitos significativos.

Los -u La opción le dice a bogofilter que registre el texto del mensaje después de clasificarlo como spam.
o no spam. Se registrará un mensaje de spam en la lista de spam y un mensaje que no sea de spam en
la buena lista. Si la clasificación es "insegura", el mensaje no se registrará.
Efectivamente, esta opción ejecuta bogofilter con el -s or -n bandera, según corresponda. La precaución es
instado en el uso de esta capacidad, ya que cualquier error de clasificación que pueda cometer bogofilter
se conservará y se acumulará hasta que se corrija manualmente con el -Sn y -Ns opción
combinaciones. Tenga en cuenta que esta opción hace que la base de datos se abra para acceso de escritura, lo que
puede implicar ralentizaciones masivas a través de contención de bloqueo y operaciones de E / S sincrónicas.

Los -H La opción le dice a bogofilter que no etiquete los tokens del encabezado. Esta opcion es para
pruebas, no debe utilizarlo en condiciones normales de funcionamiento.

Los -M La opción le dice a bogofilter que procese su entrada como un archivo con formato mbox. Si el -v or
-t También se da la opción, se imprimirá una línea de espamicidad para cada mensaje.

Los -b (modo de transmisión masiva) le dice a bogofilter que clasifique varios objetos cuyos
los nombres se leen desde stdin. Si el -v or -t También se ofrece la opción, bogofilter imprimirá una
línea que proporciona el nombre del archivo y la información de clasificación de cada archivo. Esta es una alternativa
a -B que enumera los objetos en la línea de comando.

Un objeto en este contexto será un maildir (autodetectado), o si no es un maildir, un
solo correo a menos que -M se proporciona, en ese caso se procesa como mbox. (El contenido-longitud:
El encabezado no se tiene en cuenta actualmente).

Al leer el formato mbox, bogofilter se basa en la línea vacía después de un correo. Si es necesario,
correo electrónico -es se asegurará de que este sea el caso.

Los -B objeto ... La opción (modo masivo) le dice a bogofilter que clasifique varios objetos nombrados
en la línea de comando. Los objetos pueden ser nombres de archivo (para mensajes individuales), buzones de correo (archivos
con múltiples mensajes), o directorios (de formato maildir y MH). Si el -v or -t opción
También se proporciona, bogofilter imprimirá una línea que indica el nombre del archivo y la clasificación.
información para cada archivo. Esta es una alternativa a -b que enumera los objetos en stdin.

Los -R La opción le dice a bogofilter que genere un marco de datos R en forma de texto en el estándar
producción. Consulte la sección sobre integración con R, a continuación, para obtener más detalles.

OPCIONES DE REGISTRO

Los -s La opción le dice a bogofilter que registre el texto presentado como spam. La base de datos es
creado si está ausente.

Los -n La opción le dice a bogofilter que registre el texto presentado como no spam.

Bogofilter no detecta si un mensaje se registró dos veces. Si hace esto por accidente, el
los recuentos de tokens se reducirán en 1 de lo que realmente desea y las puntuaciones de spam correspondientes
estará un poco apagado. Dada una gran cantidad de tokens y mensajes en la lista de palabras, esto
no importa. El problema can ser corregido utilizando el -S opción o el -N .

Los -S La opción le dice a bogofilter que deshaga un registro previo del mismo mensaje como spam.
Si un mensaje fue ingresado incorrectamente como spam por -s or -u y quieres eliminarlo y
introdúzcalo como no spam, utilice -Sn. Si -S se utiliza para un mensaje que no se registró como spam,
los recuentos seguirán disminuyendo.

Los -N La opción le dice a bogofilter que deshaga un registro previo del mismo mensaje que
no spam. Si un mensaje fue ingresado incorrectamente como no spam por -n or -u y tú quieres
elimínelo e ingréselo como spam, luego use -Ns. Si -N se usa para un mensaje que no
registrado como no spam, los recuentos seguirán disminuyendo.

OPCIONES GENERALES

Los -c nombre de archivo La opción le dice a bogofilter que lea el archivo de configuración llamado.

Los -C La opción evita que bogofilter lea los archivos de configuración.

Los -d dir La opción le permite configurar el directorio de la base de datos. Ver el MEDIO AMBIENTE
sección para otras opciones de configuración de directorio.

Los -k tamaño del caché La opción establece el tamaño de la caché para el subsistema BerkeleyDB, en unidades de 1
MiB (1,048,576 bytes). Dimensionar correctamente la caché mejora el rendimiento de bogofilter. los
El tamaño recomendado es un tercio del tamaño del archivo de base de datos. Puedes ejecutar el bogotune
script (en el directorio tuning) para determinar el tamaño recomendado.

Los -l La opción escribe una línea informativa en el registro del sistema cada vez que se ejecuta bogofilter.
La información registrada depende de cómo se ejecute bogofilter.

Los -L etiqueta La opción configura una etiqueta que se puede incluir en la información que se registra
según el -l opción, pero requiere un formato personalizado que incluya la cadena% l por ahora.
Esta opción implica -l.

Los -I nombre de archivo La opción le dice a bogofilter que lea su entrada del archivo especificado, en lugar de
que de stdin.

Los -O nombre de archivo La opción le dice a bogofilter dónde escribir su salida en modo passthrough.
Tenga en cuenta que esto solo funciona cuando se da explícitamente -p.

OPCIONES DE PARAMETROS

Los -E valor [, valor] La opción permite configurar el valor sp-esf y el valor ns-esf. Con dos
valores, se establecen tanto sp-esf como ns-esf. Si solo se proporciona un valor, los parámetros se establecen como
descrito en la nota a continuación.

Los -m valor [, valor] [, valor] La opción permite configurar el valor min-dev y, opcionalmente, el
valores robs y robx. Con tres valores, min-dev, robs y robx están todos configurados. Si menos
Se dan los valores, los parámetros se establecen como se describe en la nota a continuación.

Los -o valor [, valor] La opción permite configurar los valores de corte de jamón de corte de spam. Con dos
valores, se establecen tanto spam-cutoff como ham-cutoff. Si solo se da un valor, los parámetros
se establecen como se describe en la nota siguiente.

Nota: Todas estas opciones permiten proporcionar menos valores. Los valores se pueden omitir
usando solo el delimitador de coma, en cuyo caso los parámetros correspondientes no serán
cambió. Si solo se proporciona el primer valor, solo se establece el primer parámetro.
Los valores finales se pueden omitir, en cuyo caso los parámetros correspondientes no serán
cambió. Dentro de la lista de parámetros, no se permiten espacios después de las comas.

OPCIONES DE INFO

Los -v La opción genera un informe a la salida estándar sobre el análisis de bogofilter de la entrada.
Cada adicional v aumentará la verbosidad de la salida, hasta un máximo de 4. Con
-vv, el informe enumera los tokens con mayor desviación de una media de 0.5 asociación
con spam.

Opción -y datos se puede utilizar para anular la fecha actual cuando se colocan los tokens de marca de tiempo. Un valor
de cero (0) desactiva el sello de tiempo.

Los -D La opción redirige la salida de depuración a stdout.

Los -x banderas La opción permite configurar indicadores de depuración para imprimir información de depuración. Ver
archivo de encabezado debug.h para la lista de indicadores utilizables.

CONFIGURAR OPCIONES DE ARCHIVO

Usando GNU longopt -- sintaxis, un archivo de configuración Nombre = valor la declaración se convierte en una línea de comando
--opción = valor. Usar comando bogofiltro --ayuda para obtener una lista de opciones y ver
bogofilter.cf.example para obtener más información sobre ellos. Por ejemplo, para cambiar el encabezado X-Bogosity
a "X-Spam-Header", utilice:

--spam-header-name = X-Spam-Header

MEDIO AMBIENTE

Bogofilter usa un directorio de base de datos, que se puede configurar en el archivo de configuración. Si no está configurado
allí, bogofilter usará el valor de BOGOFILTER_DIR. Ambos pueden ser anulados por el -d
dir opción. Si nada de eso está disponible, bogofilter usará el directorio $ HOME / .bogofilter.

CONFIGURACIÓN

La línea de comando bogofilter permite configurar muchas opciones que determinan cómo bogofilter
opera. El archivo /etc/bogofilter.cf se puede utilizar para establecer parámetros adicionales que afectan su
operación. El archivo /etc/bogofilter.cf.example tiene muestras de todos los parámetros. Estado
y los mensajes de registro se pueden personalizar para cada sitio.

DEVOLUCION VALORES

0 para spam; 1 para no spam; 2 por inseguro; 3 para errores de E / S u otros.

Si ambos -p y -e se utilizan, los valores devueltos son: 0 para spam o no spam; 3 para E / S o
otros errores.

El error 3 generalmente significa que el archivo de lista de palabras que bogofilter quiere leer al inicio es
falta o el disco duro se ha llenado de -p modo.

INTEGRACIÓN CON OTROS HERRAMIENTAS

Usar con procmail

La siguiente receta (a) almacena todo lo que bogofilter califica como spam, (b) registra
las palabras en mensajes clasificados como spam como tales, y (c) registra las palabras en mensajes clasificados
como no spam como tal. Con esto en su lugar, normalmente solo será necesario para el usuario
intervenir (con -Ns or -Sn) cuando bogofilter categoriza incorrectamente algo.

# filtrar el correo a través de bogofilter, etiquetándolo como Ham, Spam o Unsure,
# y actualizando la lista de palabras

: 0fw
| bogofiltro -u -e -p

# si bogofilter falló, devuelva el correo a la cola;
# el MTA volverá a intentar entregarlo más tarde
# 75 es el valor de EX_TEMPFAIL en /usr/include/sysexits.h

: 0e
{EXITCODE = 75 HOST}

# archivar el correo en spam-bogofilter si es spam.

: 0:
* ^ X-Bogosity: Spam, tests = bogofilter
filtro de spam

# enviar el correo a unsure-bogofilter
# si no es jamón ni spam.

: 0:
* ^ X-Bogosity: inseguro, pruebas = bogofilter
filtro-bog-inseguro

# Con esta receta, puede entrenar bogofilter comenzando con un
# lista de palabras. Asegúrese de revisar su carpeta de dudas con regularidad, tome el
# mensajes fuera de él, clasificarlos como ham (o spam) y usarlos para
# bogofilter de tren.

La siguiente regla de procmail tomará el correo en stdin y lo guardará en el archivo de spam si bogofilter
piensa que es spam:

: 0HB:
*? bogofiltro
correo no deseado (spam)

y esta regla similar también registrará los tokens en el correo de acuerdo con el
clasificación bogofilter:

: 0HB:
*? bogofilter -u
correo no deseado (spam)

Si bogofilter falla (devolviendo 3), el mensaje se tratará como no spam.

Este es para maildrop, pospone automáticamente el correo y vuelve a intentarlo más tarde cuando el
El comando xfilter falla, use esto en su ~ / .mailfilter:

xfilter "bogofilter -u -e -p"
if (/ ^ X-Bogosity: Spam, tests = bogofilter /)
{
a "spam-bogofilter"
}

Las siguientes líneas .muttrc crearán macros mutt para enviar correo a bogofilter.

macro índice d " unset wait_key \ n \
bogofilter -n \ n \
establecer la tecla_espera \ n \
"" eliminar mensaje como no spam "
índice de macros \ ed " unset wait_key \ n \
bogofilter -s \ n \
establecer la tecla_espera \ n \
"" eliminar mensaje como spam "

Integración con Mail Transport Agent (MTA)

1. bogofilter también se puede integrar en un MTA para filtrar todo el correo entrante. Mientras que la
La implementación específica depende del MTA, los pasos generales son los siguientes:

2. Instale bogofilter en el servidor de correo

3. Cebe las bases de datos de bogofilter con un corpus de spam y no spam. Dado que bogofilter
estar sirviendo a una comunidad más grande, es importante prepararla con un conjunto representativo
de mensajes.

4. Configure el MTA para invocar bogofilter en cada mensaje. Si bien este es un MTA específico
paso, probablemente necesitará utilizar el -p, -uy -e .

5. Configure un mecanismo para que los usuarios registren mensajes de spam / no spam, así como para corregir
clasificaciones erróneas. La solución más genérica es configurar direcciones de correo electrónico de alias para
qué usuarios devuelven mensajes.

6. Consulte los directorios doc y contrib para obtener más información.

Uso de R para verificar los cálculos de bogofilter

La opción -R le dice a bogofilter que genere un marco de datos R. El marco de datos contiene uno
fila por token analizado. Cada una de estas filas contiene el token, la suma de su base de datos "buena"
y recuentos de "spam", el recuento "bueno" dividido por la cantidad de mensajes que no son spam utilizados para
crear la base de datos de entrenamiento, el recuento de "spam" dividido por el recuento de mensajes de spam,
Robinson f (w) para el token, los registros naturales de (1 - f (w)) yf (w), y un indicador
carácter (+ si el valor f (w) del token excedió la desviación mínima de 0.5, - si
no lo hizo). Hay una fila adicional al final de la tabla que contiene una etiqueta en el
campo token, seguido del número de palabras realmente utilizadas (las que tienen indicadores +),
Valores P, Q, S, syx de Robinson y la desviación mínima.

El marco de datos R se puede guardar en un archivo y luego leer en una sesión R (ver los R
Antecedentes sitio web[5] para obtener información sobre el paquete de matemáticas R). Provisto con el
La distribución de bogofilter es un script R simple (archivo bogo.R) que se puede usar para verificar
cálculos de bogofilter. Las instrucciones para su uso se incluyen en el script en el formulario
de comentarios.

LOG MENSAJES

Bogofilter escribe mensajes en el registro del sistema cuando el -l se utiliza la opción. Qué está escrito
depende de qué otras banderas se utilicen.

Se generará una ejecución de clasificación (no mostramos la fecha y la parte del host aquí):

bogofilter [1412]: X-Bogosity: Jamón, espamicidad = 0.000227
bogofilter [1415]: X-Bogosity: Spam, spamicity = 0.998918

Gracias a -u clasificar un mensaje y actualizar una lista de palabras producirá (una de una sola línea):

bogofilter [1426]: X-Bogosity: Spam, espamicidad = 0.998918,
registro -s, 329 palabras, 1 mensaje

Registro de palabras (-l y -s, -n, -So -N) Producirá:

bogofilter [1440]: registro-n, 255 palabras, 1 mensaje

Una ejecución de registro (usando -s, -n, -No -S) generará mensajes como:

bogofilter [17330]: registro-n, 574 palabras, 3 mensaje
bogofilter [6244]: registro-s, 1273 palabras, 4 mensajes

Utilice bogofilter-bdb en línea utilizando los servicios de onworks.net