Aceasta este comanda spamprobe care poate fi rulată în furnizorul de găzduire gratuit OnWorks folosind una dintre multiplele noastre stații de lucru online gratuite, cum ar fi Ubuntu Online, Fedora Online, emulator online Windows sau emulator online MAC OS
PROGRAM:
NUME
spamprobe - Un filtru bayesian de spam
REZUMAT
sonda spam [Opțiuni] comandă [fișiere ...]
DESCRIERE
SpamProbe este un filtru de spam care se bazează pe o analiză bayesiană a frecvenței cuvintelor utilizate
în e-mailurile spam și non-spam primite de o persoană individuală. Procesul este complet
automat și se adaptează la tipurile de e-mailuri pe care le primește fiecare persoană.
SpamProbe recunoaște și decodifică atașamentele MIME în codificare tipărită între ghilime și codare base64.
Atașamentele de imagini sunt considerate cuvinte care pot semnala un spam. În mod implicit, ignoră
Etichete HTML pentru punctare.
SpamProbe acceptă formatele de cutie poștală MBOX, MBX și Maildir. Aceste formate sunt automat
detectat pentru cutiile poștale utilizate ca parametri ai comenzilor SpamProbe.
sonda spam este conceput pentru a fi utilizat în agenții de livrare a corespondenței (MDA), cum ar fi procmail(1) sau
drop mail(1) pentru a ajuta la identificarea spamului.
OPŢIUNI
Opțiunile recunoscute sunt:
-a car de război
În mod implicit, SpamProbe convertește caractere non-ascii (caractere cu cel mai mult
bit semnificativ setat la 1) în litera „z”. Acest lucru este util pentru aglomerarea tuturor asiaticilor
caractere într-un singur cuvânt pentru o recunoaștere ușoară. Opțiunea -a vă permite să schimbați
personajul la altceva dacă nu vă place litera „z” dintr-un motiv oarecare.
-c
Spune SpamProbe să creeze directorul bazei de date dacă acesta nu există deja.
În mod normal, SpamProbe iese cu o eroare de utilizare dacă directorul bazei de date nu o face deja
exista.
-C număr
Spune SpamProbe să atribuie o probabilitate implicită, oarecum neutră, oricărui termen care
nu are un număr ponderat (număr bun dublat) de cel puțin număr în
Bază de date. Acest lucru împiedică termenii care au fost văzuți doar de câteva ori să aibă un
influență nerezonabilă asupra scorului unui e-mail care le conține.
Valoarea implicită este 5. De exemplu, dacă număr este 5 atunci pentru ca un termen să-și folosească
probabilitate calculată că trebuie să fi fost văzut de 3 ori în e-mailuri bune sau de 2 ori în
e-mailuri bune și o dată în spam, sau de 5 ori în spam, sau o altă combinație care se adună
la cel putin 5.
-d [tip:]director
În mod implicit, SpamProbe își stochează baza de date într-un director numit .spamprobe sub dvs
directorul principal. The -d opțiunea vă permite să specificați un director diferit de utilizat. Acest
este necesar dacă directorul dvs. de acasă este montat NFS, de exemplu.
Numele directorului poate fi prefixat cu un cod special pentru a forța SpamProbe să folosească a
anumit tip de format de fișier de date. Tipurile definite includ:
-d bdb:cale
Forțează utilizarea fișierului de date Berkeley DB.
-d hash:cale
Forțează utilizarea unui fișier hash mmapat.
-d split:cale
Forțează utilizarea unui fișier hash și a fișierului ISAM (poate oferi o precizie mai bună decât
hash simplu în unele cazuri).
hash: opțiunea poate specifica, de asemenea, dimensiunea dorită a fișierului în megaocteți înainte de cale.
De exemplu -d hash:19:cale ar face ca SpamProbe să folosească un fișier hash de 19 MB. Marimea
trebuie să fie în intervalul 1-100. Dimensiunea implicită a fișierului hash este de 16 MB. Pentru că fișierele hash
au o dimensiune și o capacitate fixă, acestea trebuie curățate relativ des folosind
cleanup comandă (vezi mai jos) pentru a preveni să devină pline sau să fie încetinite
multe coliziuni de taste hash.
Fișierele hash oferă performanțe mai bune decât Berkeley DB. Cu toate acestea, fișierele hash nu
stocați termenii originali. Doar o cheie hash de 32 de biți este stocată cu fiecare termen. Acest
împiedică un utilizator să exploreze termenii din baza de date folosind comanda dump pentru a vedea
ce cuvinte sunt în special spam sau hammy. Formatul implicit al fișierului de date este Berkeley
BD (bdb).
-D director
Spune SpamProbe să folosească baza de date în directorul specificat (trebuie să fie diferit de
cel specificat cu -d opțiune) ca bază de date partajată din care să trageți termeni
care nu sunt definite în propria bază de date a utilizatorului. Aceasta poate fi folosită pentru a oferi a
baza de date de bază partajată de toți utilizatorii dintr-un sistem (în -D director) și un privat
baza de date unică pentru fiecare utilizator al sistemului ($HOME/.spamprobe sau -d director).
-g numele domeniului
Spune SpamProbe în ce antet să caute scorul anterior și rezumatul mesajului. Implicit
este X-SpamProbe. Numele câmpului nu face distincție între majuscule și minuscule. Folosit de toate comenzile, cu excepția a primi.
-h
În mod implicit, SpamProbe elimină marcajul HTML din textul din e-mailuri pentru a evita falsul
pozitive. The -h opțiunea vă permite să suprascrieți acest comportament și să forțați SpamProbe
includeți cuvinte din etichetele HTML în numărul de cuvinte. Rețineți că SpamProbe întotdeauna
contorizează orice URL-uri în href-uri din etichete dacă -h este folosit sau nu. Utilizarea acestei opțiuni este
descurajat. Poate crește ușor rata de detectare a spam-ului, dar cu excepția cazului în care utilizatorul
primește o cantitate semnificativă de e-mailuri HTML, de asemenea, tinde să crească numărul
fals pozitive.
-H opțiune
În mod implicit, SpamProbe scanează doar un subset semnificativ de anteturi din mesajul de e-mail
când căutați cuvinte de punctat. The -H opțiunea permite utilizatorului să specifice suplimentar
anteturi de scanat. Valorile legale sunt toate, nox, nici unul, normală.. toate scanează toate anteturile,
nox scanează toate anteturile, cu excepția celor care încep cu X-, nici unul nu scanează antetele și
normală. scanează setul normal de anteturi.
Pe lângă aceste valori, puteți adăuga în mod explicit un antet la lista de
antete de procesat adăugând numele antetului cu litere mici precedate de semnul plus.
Pot fi specificate mai multe anteturi utilizând multiple -H Opțiuni. De exemplu, să
include doar De la si Primit antete în dvs tren comanda pe care ai putea-o rula
SpamProbe după cum urmează:
spamprobe -Hnone -H+din -H+tren primit
Pentru a procesa setul normal de anteturi, dar și pentru a adăuga antetul SpamAssassin X-SpamStatus
ați putea rula SpamProbe după cum urmează:
spamprobe -H+x-spam-starea trenului
-l număr
Modifică pragul probabilității de spam pentru e-mailuri din valoarea implicită (0.7) Pentru a număr.
Numărul trebuie să fie o valoare între 0 și 1. În general, valoarea ar trebui să fie peste 0.5 to
evitați o rată ridicată de fals pozitive. Cifrele mai mici tind să producă mai multe fals pozitive
în timp ce numerele mai mari tind să reducă precizia.
-m
Forțează SpamProbe să folosească formatul mbox pentru a citi e-mailurile în a primi modul. În mod normal
SpamProbe presupune că intrarea către a primi modul conține un singur mesaj, deci
nu caută pauze de mesaje.
-M
Forțează SpamProbe să trateze întreaga intrare ca un singur mesaj. Acest lucru ignoră De la
linii și Lungimea conținutului anteturi în intrare.
-o opțiune
Activează opțiuni speciale după nume. În prezent, singurele opțiuni speciale sunt:
-o graham
Determină SpamProbe să emuleze algoritmul de filtrare prezentat inițial în [A Plan
Pentru spam].
-o onoare-status-antet
Face ca SpamProbe să ignore mesajele dacă au un antet Status: care conține a
capital D. Unele servere de mail folosesc această stare pentru a indica un mesaj care a fost
marcat pentru ștergere, dar nu a fost încă șters din fișier.
NU utilizați această opțiune cu comanda primire sau antrenare din fișierul procmailrc!
Acest lucru ar putea permite spammerilor să ocolească filtrul. Această opțiune este menită să fie
folosit cu tren-spam si tren-bun comenzi în scripturi care periodic
actualizați baza de date.
-o orig-score
Determină SpamProbe să folosească algoritmul său original de notare, care produce rezultate excelente
rezultate, dar tinde să genereze scoruri de 0 sau 1 pentru toate mesajele.
-o etichete-suspecte
Determină ca SpamProbe să scaneze conținutul etichetelor „suspecte” pentru token-uri, mai degrabă decât
pur și simplu aruncându-le afară. În prezent, sunt scanate doar etichetele de font, dar alte etichete pot
fi adăugat la această listă în versiunile ulterioare.
-o cuvinte pot
Determină ca SpamProbe să citească jetoanele câte unul pe linie, mai degrabă decât să proceseze intrarea ca
format mail. Acest lucru permite utilizatorilor să înlocuiască complet SpamProbe standard
tokenizer dacă doresc și în schimb folosesc un program extern ca tokenizer.
În acest mod, SpamProbe consideră o linie goală pentru a indica sfârșitul unui mesaj
jetoane și începutul jetoanelor unui mesaj nou. SpamProbe calculează un mesaj
rezumat pe baza liniilor de text care conțin jetoanele.
-o opțiunea poate fi folosită de mai multe ori și toate opțiunile solicitate vor fi aplicate.
Rețineți că unele opțiuni pot intra în conflict între ele, caz în care ultima opțiune
ar avea prioritate.
-p număr
Modifică numărul maxim de cuvinte pe frază. Valoarea implicită este două. Creșterea
limit îmbunătățește oarecum precizia, dar mărește dimensiunea bazei de date. Experimentele indică
că creșterea peste doi nu merită costul suplimentar în spațiu.
-P număr
Determină SpamProbe să efectueze o curățare a tuturor termenilor cu un număr de mesaje nedorite mai mic sau egal cu 2
după ce fiecare număr de mesaje sunt procesate. Folosind această opțiune la clasificarea unui mare
colectarea de spam poate împiedica baza de date să devină prea mare cu prețul
mai mult timp de procesare și posibilă pierdere de precizie.
-r număr
Modifică de câte ori poate apărea un singur cuvânt/expresie în matricea de cuvinte de sus
folosit pentru a calcula scorul pentru fiecare mesaj. Permiterea repetărilor reduce numărul de
cuvinte în ansamblu (deoarece un singur cuvânt ocupă mai mult de un slot) dar permite cuvinte care
apar frecvent în mesaj pentru a avea o pondere mai mare. În general, acest lucru este schimbat
numai în scopuri de optimizare.
-R
Determină SpamProbe să trateze intrarea ca pe un singur mesaj și să își bazeze codul de ieșire
indiferent dacă acel mesaj a fost sau nu spam. Codul de ieșire va fi 0 dacă mesajul a fost spam
sau 1 dacă mesajul a fost bun.
-s număr
SpamProbe păstrează un cache în memorie a cuvintelor pe care le-a văzut în mesajele anterioare
pentru a reduce I/O pe disc și a îmbunătăți performanța. În mod implicit, memoria cache va conține cel mai mult
a accesat recent 2,500 de termeni. Acest număr poate fi schimbat folosind -s opțiune. Folosind un
dimensiunea cache-ului mai mare va face ca SpamProbe să utilizeze mai multă memorie și, eventual, să o facă
efectuează mai puține I/O în baza de date. O valoare de zero face ca SpamProbe să folosească 100,000 ca
limită, ceea ce înseamnă efectiv că memoria cache va fi golită doar la ieșirea din program
(cu excepția cazului în care aveți fișiere cu adevărat enorme de cutie poștală). Cache-ul nu afectează primirea,
dump sau export, dar are un impact semnificativ asupra celorlalte.
-T
Determină SpamProbe să scrie în plus termenii de top asociați fiecărui mesaj
la ieșirea sa normală. Functioneaza cu găsi-bun, găsi-spam și scor.
-v
Când apare o dată pe linia de comandă, această opțiune îi spune lui SpamProbe să scrie în mod verbos
informații în timpul procesării. Când apare de două ori pe linia de comandă, această opțiune
spune SpamProbe să scrie informații de depanare în stderr. Acest lucru poate fi util pentru
depanare sau pentru a vedea ce termeni a folosit SpamProbe pentru a nota fiecare e-mail.
-V
Imprimă informații despre versiune și copyright și apoi se iese.
-w număr
Modifică numărul celor mai semnificative cuvinte/expresii utilizate de SpamProbe pentru a calcula
scorul pentru fiecare mesaj. În general, acest lucru este modificat numai în scopuri de optimizare.
-x
În mod normal, SpamProbe utilizează doar un număr fix de termeni de top (așa cum este stabilit de -w comandă
opțiunea de linie) la înscrierea e-mailurilor. The -x opțiunea poate fi utilizată pentru a permite matricei să fie
extins peste dimensiunea maximă dacă sunt disponibili mai mulți termeni cu probabilități <= 0.1 sau >=
0.9.
-X
O variație interesantă a setărilor de punctare. Echivalent cu folosirea -w5 -r5 -x so
că în general se folosesc numai cuvinte cu probabilităţi <= 0.1 sau >= 0.9 şi cuvânt
frecvențele din e-mail contează foarte mult la scor. Testele au arătat că acest lucru
setarea tinde să fie mai sigură (mai puține false pozitive) și să aibă o reamintire mai mare (corespunzător
clasificarea spam-urilor marcate anterior ca spam) deși puterea sa predictivă nu este
la fel de bun ca și setările implicite. AVERTISMENT: Această setare poate funcționa cel mai bine cu a
corpus destul de mare, nu a fost testat cu un corpus mic, așa că ar putea fi foarte
inexacte cu mai puțin de 1000 de mesaje în total.
-Y
Să presupunem formatul tradițional de cutie poștală Berkeley, ignorând orice câmpuri Content-Length:.
-7
Spune SpamProbe să ignore orice caractere cu bitul cel mai semnificativ setat la 1
în loc să le mapați la litera „z”.
-8
Spune SpamProbe să stocheze toate caracterele chiar dacă bitul lor cel mai semnificativ este setat la
1.
COMANDE
SpamProbe recunoaște următoarele comenzi:
sonda spam ajutor [ comandă ]
Fără argumente, SpamProbe listează toate comenzile valide. Dacă una sau mai multe comenzi
sunt specificate după cuvântul ajutor, SpamProbe va imprima o descriere mai detaliată a
fiecare comandă.
sonda spam crea-db
Dacă nu există în prezent nicio bază de date, SpamProbe va încerca să creeze una și apoi va ieși.
Aceasta poate fi folosită pentru a porni o nouă instalare. Strict vorbind, această comandă este
nu este necesar din moment ce tren-spam, tren-bun și auto-tren comenzile vor, de asemenea
creați o bază de date dacă nu există deja, dar unor utilizatori le place să creeze o bază de date ca a
pas de instalare separat.
sonda spam create-config
Scrie un nou fișier de configurare numit spamprobe.hdl în directorul bazei de date
(în mod normal $HOME/.spamprobe). Orice fișier de configurare existent va fi suprascris
asigurați-vă că faceți o copie înainte de a invoca această comandă.
sonda spam a primi [ nume de fișier... ]
Spune SpamProbe să citească intrarea standard (sau un fișier specificat după primire
comanda) și marcați-l folosind bazele de date curente. Odată ce mesajul a fost punctat
mesajul este clasificat ca spam sau non-spam, iar numărul de cuvinte este scris
la baza de date corespunzătoare. Scorul mesajului este scris în stdout împreună cu a
Un singur cuvânt. De exemplu:
SPAM 0.9999999 595f0150587edd7b395691964069d7af
GOOD 0.0200000 595f0150587edd7b395691964069d7af
Șirul de cifre hexadecimale de după scor este „MD5-digest” al mesajului, pe 128 de biți
număr care identifică în mod unic mesajul. Rezumatul este folosit de SpamProbe pentru
recunoaște mesajele pe care le-a procesat anterior, astfel încât să se poată ține de cuvânt
contează consistent dacă mesajul este reclasificat.
Utilizarea -T opțiunea listează în plus termenii folosiți pentru a produce scorul împreună cu
numărul lor (numărul de ori au fost găsite în mesaj).
sonda spam tren [ nume de fișier... ]
Funcțional identic cu a primi cu excepția faptului că baza de date este modificată numai dacă
mesajul a fost „dificil” de clasificat. În practică, acest lucru poate reduce numărul de
se actualizează baza de date la 10% din mesajele primite.
sonda spam scor [ nume de fișier... ]
Similar cu primirea, cu excepția faptului că baza de date nu este modificată în niciun fel.
sonda spam rezuma [ nume de fișier... ]
similar scor cu excepția faptului că imprimă un scurt rezumat și punctaj pentru fiecare mesaj.
Acest lucru poate fi util la testare. Folosind -T opțiunea listează în plus termenii utilizați
pentru a produce scorul împreună cu numărul lor (de numărul de ori au fost găsite în
mesaj).
sonda spam găsi-spam [ nume de fișier... ]
similar scor cu excepția faptului că tipărește un scurt rezumat și punctaj pentru fiecare mesaj care
este determinat a fi spam. Acest lucru poate fi util la testare. Folosind -T opțiune
listează în plus termenii folosiți pentru a produce scorul împreună cu numărul lor (număr
de ori au fost găsite în mesaj).
sonda spam găsi-bun [ nume de fișier... ]
similar scor cu excepția faptului că tipărește un scurt rezumat și punctaj pentru fiecare mesaj care
este hotărât să fie bun. Acest lucru poate fi util la testare. Folosind -T opțiune
listează în plus termenii folosiți pentru a produce scorul împreună cu numărul lor (număr
de ori au fost găsite în mesaj).
sonda spam auto-tren { SPAM|BUN nume de fișier ... } ...
Încercările de a construi eficient o bază de date din toate fișierele numite. Puteți specifica
unul sau mai multe fișiere de fiecare tip. Înainte de fiecare set de nume de fișiere, trebuie să includeți fișierul
cuvânt SPAM or BUN pentru a indica ce tip de e-mail este conținut în fișierele care urmează
pe linia de comandă.
Cazul SPAM si BUN cuvintele cheie sunt importante. Orice număr de nume de fișiere poate fi
specificate între cuvintele cheie. Formatul liniei de comandă este foarte flexibil. Poți chiar
utilizați o comandă find în backticks pentru a procesa întregi arbori de directoare de fișiere. Pentru
exemplu:
spamprobe auto-train SPAM spam-uri/* BINE `găsește hams -tip f`
SpamProbe scanează în prealabil fișierele pentru a determina câte e-mailuri de fiecare tip există și apoi
se antrenează pe radioamoane și spam-uri într-o secvență aleatorie care echilibrează fluxul de fiecare tip deci
că comanda trenului poate funcționa cel mai eficient. De exemplu dacă aveai 400 de șunci și
400 de mesaje spam, auto-train va procesa, în general, un spam, apoi un ham etc. Dacă ați avut
4000 de spam-uri și 400 de hams, apoi auto-train va procesa în general 10 spam-uri, apoi un ham,
etc
Deoarece această comandă va dura probabil mult timp pentru a rula, este adesea de dorit să fie utilizată
cu opțiunea -v pentru a vedea informațiile despre progres pe măsură ce mesajele sunt procesate.
spamprobe -v auto-train SPAM-uri/* hams BUNE/*
sonda spam bine [ nume de fișier... ]
Scanează fiecare fișier (sau stdin dacă nu este specificat niciun fișier) și reclasifică fiecare e-mail din
fișier ca non-spam. Bazele de date sunt actualizate corespunzător. Mesaje anterior
clasificate ca bune (recunoscute folosind rezumatul lor MD5) sunt ignorate. Mesaje
clasificate anterior ca spam sunt reclasificate ca bune.
sonda spam tren-bun [ nume de fișier... ]
Funcțional identic cu bine comanda cu excepția faptului că actualizează doar baza de date pentru
mesajele care sunt fie clasificate incorect (adică clasificate ca spam), fie sunt
„dificil” de clasificat. În practică, acest lucru poate reduce cantitatea de actualizări ale bazei de date la ca
doar 10% din mesaje.
sonda spam spam- [ nume de fișier... ]
Scanează fiecare fișier (sau stdin dacă nu este specificat niciun fișier) și reclasifică fiecare e-mail din
fișier ca spam. Bazele de date sunt actualizate corespunzător. Mesaje clasificate anterior
ca spam (recunoscut utilizând rezumatul MD5 al ID-urilor mesajelor) sunt ignorate. Mesaje
clasificate anterior ca bune sunt reclasificate ca spam.
sonda spam tren-spam [ nume de fișier... ]
Funcțional identic cu spam- comanda cu excepția faptului că actualizează doar baza de date pentru
mesajele care sunt fie clasificate incorect (adică clasificate ca bune), fie sunt
„dificil” de clasificat. În practică, acest lucru poate reduce cantitatea de actualizări ale bazei de date la ca
doar 10% din mesaje.
sonda spam scoate [ nume de fișier... ]
Scanează fiecare fișier (sau stdin dacă nu este specificat niciun fișier) și elimină numărul de termeni din
baza de date. Mesaje care nu sunt în baza de date (recunoscute folosind MD5
rezumatul ID-urilor mesajelor) sunt ignorate.
sonda spam cleanup [ junk_count [ varsta_max ] ]
Scanează baza de date și elimină toți termenii cu junk_count sau mai puțin (implicit 2) care
nu li s-au modificat conturile cel puțin în varsta_max zile (implicit 7). Puteți
specificați mai multe perechi număr/vârstă pe o singură linie de comandă, dar trebuie să specificați ambele a
număr și o vârstă pentru toți, cu excepția ultimului număr. Acest lucru ar trebui să fie rulat periodic pentru a păstra
baza de date să crească la nesfârșit.
sonda spam epurare [ junk_count ]
Similar cu curățarea, dar forțează ștergerea imediată a tuturor termenilor cu număr total
mai puțin de junk_count (implicit este 2) indiferent de cât timp a trecut de când au fost
modificate (adică chiar dacă tocmai au fost adăugate astăzi). Acest lucru ar putea fi la îndemână imediat
după ce ați clasificat o cutie poștală mare de spam istoric sau e-mail bun pentru a face loc
lotul următor.
sonda spam termeni de epurare regex
Similar cu purge, cu excepția faptului că elimină din baza de date toți termenii care se potrivesc cu
expresia regulată specificată. Aveți grijă cu această comandă, deoarece ar putea elimina
mult mai mulți termeni decât vă așteptați. Utilizare descărca cu aceeași regex înainte de a rula asta
comandă pentru a vedea exact ce va fi șters.
sonda spam termenul de editare durată bun_număr spam_count
Poate fi folosit pentru a seta în mod specific numărul de bunuri și spam ale unui termen. Fie că acesta este
cu adevărat util este îndoielnic, dar este oferit de dragul caracterului complet.
sonda spam descărca [ regex ]
Imprimă conținutul bazei de date de numărare a cuvintelor un cuvânt pe linie în format citibil uman
format cu probabilitate de spam, număr bun, număr de spam, steaguri și cuvânt în coloane
separate prin spații albe. Când este dat, regex argumentul limitează ieşirea la potrivire
token-uri.
sonda spam tokeniza [ nume de fișier ]
Imprimă jetoanele găsite în fișier un cuvânt pe linie în format care poate fi citit de om
probabilitate de spam, număr bun, număr de spam, număr de mesaje și cuvânt în coloane separate
prin spații albe. Termenii sunt enumerați în ordinea în care au fost întâlniți în
mesaj. Comanda standard de sortare Unix poate fi folosită pentru a sorta termenii după cum doriți.
sonda spam exporturile
În mod similar cu descărca comandă, dar imprimă numerele și cuvintele separate prin virgulă
format cu cuvintele înconjurate de ghilimele duble. Acest lucru poate fi mai util pentru
import în unele baze de date.
sonda spam import
Citește fișierele specificate care trebuie să conțină date de export scrise de exporturile
comanda. Termenii și numărul din acest fișier sunt adăugați la baza de date. Acesta poate fi
folosit pentru a converti o bază de date dintr-o versiune anterioară.
EXEMPLE
Extern Tokenizatoare
Presupunând că aveți un tokenizer tokenize.pl, în fișierul procmailrc ați putea folosi:
SCORE=| tokenize.pl | /usr/bin/spamprobe -o tren tokenizat
Interogarea Cutii poștale
Pentru a enumera toate cuvintele de la „cel mai bun” la „mai puțin bun”, utilizați această comandă:
tokenizare spamprobe nume de fișier | sortare -k 1n -k 2nr
Pentru a enumera toate cuvintele de la „cel mai spam” la „cel mai puțin spam”, utilizați această comandă:
tokenizare spamprobe nume de fișier | sortare -k 1nr -k 3nr
Interogarea Baza de date
Utilizare sonda spam descărca pentru a obține o listă de jetoane care poate fi citită de om în baza de date SpamProbe.
Berkeley DB sortează termenii alfabetic; conducte de ieșire în Unix standard fel(1)
comanda poate fi folosită pentru a sorta termenii după cum doriți.
Pentru a enumera toate cuvintele din baza de date SpamProbe, de la „cel mai bun” la „mai puțin bun”, utilizați acest lucru
comanda:
spamprobe dump | sortare -k 1n -k 2nr
Pentru a enumera toate cuvintele de la „cel mai spam” la „cel mai puțin spam”, utilizați această comandă:
spamprobe dump | sortare -k 1nr -k 3nr
Opțional, puteți specifica o expresie regulată. Dacă este specificat, SpamProbe va face doar descărcarea
termeni care se potrivesc cu expresia regulată. De exemplu:
spamprobe dump „finanțare”
spamprobe dump „\\bfinance\\b”
spamprobe dump „HSubject_.*finance”
BAZA DE DATE ÎNTREȚINERE
Când nu este luată nicio prevedere, bazele de date SpamProbe vor crește constant în timp ce se clasifică
mesaje. Pentru a elimina intrările vechi neutilizate, ar trebui să rulați cleanup în mod obișnuit
baza, cel mai usor de la cron(1).
# zilnic la 00:03
# elimina intrările cu număr <= 2 care nu au
# a fost atins în ultimele 2 săptămâni de la
# baza de date spamprobe
3 0 * * * /usr/bin/spamprobe curățare 2 14
Alternativ, ați putea dori să utilizați un număr mult mai mare (1000 în acest exemplu) pentru termeni
care nu au fost văzute de aproximativ șase luni:
3 0 * * * /home/brian/bin/spamprobe cleanup 1000 180 2 14
Din cauza modului în care funcționează Berkeley DB, fișierul bazei de date nu se va micșora, dar
termenii nou adăugați vor putea folosi spațiul ocupat anterior de orice termeni eliminați
astfel încât creșterea fișierului ar trebui să fie semnificativ mai lentă dacă se folosește această comandă.
Pentru a micșora baza de date, puteți crea una nouă folosind utilitarul Berkeley DB
programe db_dump(1) și db_load(1) sau SpamProbeimport si exporturile comenzi. Pentru
exemplu:
CD ~
mkdir new.spamprobe
export spamprobe | spamprobe -d ~/new.spamprobe import
mv .spamprobe vechi.spamprobe
mv new.spamprobe .spamprobe
-P opțiunea poate fi folosită și pentru a limita rata de creștere a bazei de date la import
un număr mare de e-mailuri. De exemplu, dacă doriți să clasificați 1000 de e-mailuri și doriți
SpamProbe pentru a curăța termenii rari la fiecare 100 de mesaje, utilizați o comandă precum:
spamprobe -P 100 bun goodmailboxname
Utilizarea -P încetinește clasificarea, dar poate evita necesitatea utilizării exporturile/import
truc. Rețineți că -P are sens doar atunci când se clasifică un număr mare de mesaje.
Poate doriți să forțați un anumit cuvânt să fie foarte spam sau extrem de bun:
spamprobe edit-term xanax 0 1000000
termenul de editare spamprobe debian 10000000 0
Cel puțin fixarea unor termeni buni tinde să ajute spammerii.
Utilizați spamprobe online folosind serviciile onworks.net