Dit is de opdracht spamprobe die kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator
PROGRAMMA:
NAAM
spamprobe - Een Bayesiaans spamfilter
KORTE INHOUD
spamprobe [opties] commando [bestanden
PRODUCTBESCHRIJVING
SpamProbe is een spamfilter dat vertrouwt op een Bayesiaanse analyse van de frequentie van de gebruikte woorden
in spam- en niet-spam-e-mails die door een individuele persoon worden ontvangen. Het proces is volledig
automatisch en past zich aan aan het soort e-mails dat elke persoon ontvangt.
SpamProbe herkent en decodeert MIME-bijlagen in quoted-printable en base64-codering.
Afbeeldingsbijlagen worden beschouwd als woorden die op spam kunnen duiden. Standaard negeert het
HTML-tags voor scoredoeleinden.
SpamProbe ondersteunt de mailboxformaten MBOX, MBX en Maildir. Deze formaten worden automatisch
gedetecteerd voor mailboxen die worden gebruikt als parameters van SpamProbe-opdrachten.
spamprobe is ontworpen voor gebruik in mailbezorgers (MDA's). procmail(1) of
post drop(1) om te helpen bij het identificeren van spam.
OPTIES
De erkende opties zijn:
-a verkolen
Standaard converteert SpamProbe niet-ASCII-tekens (tekens met de meeste
significante bit ingesteld op 1) in de letter 'z'. Dit is handig om alle Aziaten op één hoop te gooien
karakters samenvoegen tot één woord voor gemakkelijke herkenning. Met de optie -a kunt u wijzigen
het personage naar iets anders als je de letter 'z' om wat voor reden dan ook niet leuk vindt.
-c
Vertelt SpamProbe om de databasedirectory aan te maken als deze nog niet bestaat.
Normaal gesproken wordt SpamProbe afgesloten met een gebruiksfout als de databasedirectory dat nog niet doet
bestaan.
-C aantal
Vertelt SpamProbe om een standaard, enigszins neutrale, waarschijnlijkheid toe te wijzen aan elke term die dat betreft
heeft geen gewogen (goede telling verdubbeld) telling van minimaal aantal in de
database. Dit voorkomt dat termen die slechts een paar keer zijn gezien, een
onredelijke invloed op de score van een e-mail waarin ze voorkomen.
De standaardwaarde is 5. Bijvoorbeeld als aantal is dan 5, zodat een term deze kan gebruiken
berekende waarschijnlijkheid dat het 3 keer in goede mails moet zijn gezien, of 2 keer in
goede e-mails en één keer in spam, of 5 keer in spam, of een andere combinatie
tot minimaal 5.
-d [type:]map
Standaard slaat SpamProbe zijn database op in een map met de naam .spamprobe onder uw
thuismap. De -d Met deze optie kunt u een andere map opgeven die u wilt gebruiken. Dit
is nodig als uw thuismap bijvoorbeeld NFS is aangekoppeld.
De mapnaam kan worden voorafgegaan door een speciale code om SpamProbe te dwingen een
bepaald type gegevensbestandsformaat. Gedefinieerde typen zijn onder meer:
-d bdb:pad
Forceert het gebruik van het Berkeley DB-gegevensbestand.
-d hash:pad
Forceert het gebruik van een mmapped hashbestand.
-d splitsen: pad
Dwingt het gebruik van een hashbestand en ISAM-bestand af (kan een betere nauwkeurigheid bieden dan
gewone hash in sommige gevallen).
De hasj: optie kan ook een gewenste bestandsgrootte in megabytes vóór het pad opgeven.
Bij voorbeeld -d hash:19:pad zou ervoor zorgen dat SpamProbe een hashbestand van 19 MB gebruikt. De grootte
moet tussen 1 en 100 liggen. De standaard hash-bestandsgrootte is 16 MB. Omdat hashbestanden
hebben een vaste maat en capaciteit en moeten relatief vaak worden gereinigd met de
schoonmaken commando (zie hieronder) om te voorkomen dat ze vol raken of worden vertraagd
veel botsingen met hash-sleutels.
Hash-bestanden leveren betere prestaties dan Berkeley DB. Hash-bestanden doen dat echter niet
bewaar de originele voorwaarden. Bij elke term wordt slechts een 32-bits hash-sleutel opgeslagen. Dit
voorkomt dat een gebruiker de termen in de database kan verkennen met behulp van de dump-opdracht om te zien
welke woorden zijn bijzonder spammy of hammy. Het standaardgegevensbestandsformaat is Berkeley
BD (bbd).
-D directory
Vertelt SpamProbe om de database in de opgegeven directory te gebruiken (moet anders zijn dan
degene die is opgegeven met de -d optie) als een gedeelde database waaruit termen kunnen worden afgeleid
die niet zijn gedefinieerd in de eigen database van de gebruiker. Dit kan worden gebruikt om een
basisdatabase gedeeld door alle gebruikers op een systeem (in de -D map) en een privé
database die uniek is voor elke gebruiker van het systeem ($HOME/.spamprobe of -d adresboek).
-g veldnaam
Vertelt SpamProbe in welke koptekst moet worden gezocht naar de vorige score en berichtoverzicht. Standaard
is X-SpamProbe. Veldnaam is niet hoofdlettergevoelig. Wordt gebruikt door alle commando's behalve ontvangen.
-h
Standaard verwijdert SpamProbe HTML-markeringen uit de tekst in e-mails om valse berichten te voorkomen
positieve punten. De -h Met deze optie kunt u dit gedrag overschrijven en SpamProbe daartoe dwingen
woorden uit HTML-tags opnemen in het aantal woorden. Houd er rekening mee dat SpamProbe altijd
telt alle URL's in hrefs binnen tags, ongeacht of -h wordt gebruikt of niet. Het gebruik van deze optie is
ontmoedigd. Het kan de mate van spamdetectie enigszins verhogen, tenzij de gebruiker dit doet
ontvangt een aanzienlijk aantal HTML-e-mails, maar heeft ook de neiging om het aantal te vergroten
valse positieven.
-H optie
Standaard scant SpamProbe alleen een betekenisvolle subset van headers uit het e-mailbericht
bij het zoeken naar woorden om te scoren. De -H Met deze optie kan de gebruiker aanvullende gegevens opgeven
kopteksten om te scannen. Juridische waarden zijn dat wel allen, nox, geenof een. allen scant alle headers,
nox scant alle headers behalve die beginnen met X-, geen scant geen headers, en
een scant de normale set headers.
Naast deze waarden kunt u ook expliciet een koptekst toevoegen aan de lijst met
headers die moeten worden verwerkt door de headernaam in kleine letters toe te voegen, voorafgegaan door een plusteken.
Er kunnen meerdere headers worden opgegeven door meerdere te gebruiken -H opties. Bijvoorbeeld naar
omvatten alleen de Vanaf en Ontvangen kopteksten in uw Train commando dat je zou kunnen uitvoeren
SpamProbe als volgt:
spamprobe -Hnone -H+van -H+ontvangen trein
Om de normale set headers te verwerken, maar ook de SpamAssassin-header X-SpamStatus toe te voegen
u kunt SpamProbe als volgt uitvoeren:
spamprobe -H+x-spam-status trein
-l aantal
Wijzigt de spamwaarschijnlijkheidsdrempel voor e-mails van de standaardwaarde (0.7) Om aantal.
Het getal moet een waarde tussen 0 en 1 zijn. Over het algemeen moet de waarde hoger zijn dan 0.5 tot
vermijd een hoog percentage fout-positieven. Lagere cijfers leiden doorgaans tot meer valse positieven
terwijl hogere cijfers de nauwkeurigheid vaak verminderen.
-m
Dwingt SpamProbe om het mbox-formaat te gebruiken voor het lezen van e-mails ontvangen modus. Normaal gesproken
SpamProbe gaat ervan uit dat de invoer to ontvangen mode bevat een enkel bericht, dus het
zoekt niet naar berichtonderbrekingen.
-M
Dwingt SpamProbe om de volledige invoer als één enkel bericht te behandelen. Dit negeert Vanaf
lijnen en Inhoud lengte headers in de invoer.
-o optie
Schakelt speciale opties op naam in. Momenteel zijn de enige speciale opties:
-o graham
Zorgt ervoor dat SpamProbe het filteralgoritme emuleert dat oorspronkelijk is beschreven in [A Plan
Voor spam].
-o eer-status-header
Zorgt ervoor dat SpamProbe berichten negeert als ze een Status: header hebben met daarin een
hoofdletter D. Sommige mailservers gebruiken deze status om aan te geven dat een bericht is ontvangen
gemarkeerd voor verwijdering, maar is nog niet uit het bestand verwijderd.
Gebruik deze optie NIET met de opdracht ontvangen of trainen in uw procmailrc-bestand!
Als u dit wel doet, kunnen spammers het filter omzeilen. Deze optie is bedoeld om te zijn
gebruikt met de trein-spam en trein-goed opdrachten in scripts die periodiek
de database bijwerken.
-o orig-score
Zorgt ervoor dat SpamProbe zijn oorspronkelijke score-algoritme gebruikt dat uitstekende resultaten oplevert
resultaten, maar heeft de neiging om voor alle berichten scores van 0 of 1 te genereren.
-o verdachte tags
Zorgt ervoor dat SpamProbe de inhoud van “verdachte” tags scant op tokens in plaats van
gooi ze gewoon weg. Momenteel worden alleen lettertypetags gescand, maar andere tags mogelijk
in latere versies aan deze lijst worden toegevoegd.
-o getokeniseerd
Zorgt ervoor dat SpamProbe tokens één per regel leest in plaats van de invoer als te verwerken
mail formaat. Hierdoor kunnen gebruikers de standaard SpamProbe volledig vervangen
tokenizer als ze dat willen en gebruiken in plaats daarvan een extern programma als tokenizer.
In deze modus beschouwt SpamProbe een lege regel om het einde van een bericht aan te geven
tokens en het begin van de tokens van een nieuw bericht. SpamProbe berekent een bericht
verteren op basis van de tekstregels die de tokens bevatten.
De -o optie kan meerdere keren worden gebruikt en alle gevraagde opties worden toegepast.
Houd er rekening mee dat sommige opties met elkaar in conflict kunnen komen, in welk geval de laatste optie
voorrang zou hebben.
-p aantal
Wijzigt het maximale aantal woorden per zin. De standaardwaarde is twee. Het verhogen van de
limit verbetert de nauwkeurigheid enigszins, maar vergroot de databasegrootte. Experimenten wijzen uit
dat het verhogen van meer dan twee de extra kosten in de ruimte niet waard is.
-P aantal
Zorgt ervoor dat SpamProbe alle termen opschoont met een junk-aantal kleiner dan of gelijk aan 2
na elk nummer worden berichten verwerkt. Gebruik deze optie bij het classificeren van een large
het verzamelen van spam kan voorkomen dat de database te groot wordt, ten koste van
meer verwerkingstijd en mogelijk verlies aan precisie.
-r aantal
Wijzigt het aantal keren dat een enkel woord/zin kan voorkomen in de bovenste woordenreeks
gebruikt om de score voor elk bericht te berekenen. Door herhalingen toe te staan, wordt het aantal verminderd
woorden in het algemeen (aangezien een enkel woord meer dan één slot in beslag neemt), maar woorden toestaat die
komen vaak voor in het bericht om een hoger gewicht te hebben. Over het algemeen wordt dit gewijzigd
alleen voor optimalisatiedoeleinden.
-R
Zorgt ervoor dat SpamProbe de invoer als een enkel bericht behandelt en de afsluitcode daarop baseert
of dat bericht spam was of niet. De afsluitcode is 0 als het bericht spam was
of 1 als de boodschap goed was.
-s aantal
SpamProbe houdt een cachegeheugen bij van de woorden die het in eerdere berichten heeft gezien
om schijf-I/O te verminderen en de prestaties te verbeteren. Standaard bevat de cache de meeste
onlangs toegang gekregen tot 2,500 termen. Dit nummer kunt u wijzigen via de -s keuze. Gebruik maken van een
Als de cachegrootte groter is, zal SpamProbe meer geheugen gebruiken en mogelijk ook meer geheugen
voer minder database-I/O uit. Een waarde nul zorgt ervoor dat SpamProbe 100,000 gebruikt als
limit, wat feitelijk betekent dat de cache alleen wordt leeggemaakt bij het afsluiten van het programma
(tenzij je echt enorme mailboxbestanden hebt). De cache heeft geen invloed op de ontvangst,
dumpen of exporteren, maar heeft een aanzienlijke impact op de andere.
-T
Zorgt ervoor dat SpamProbe bovendien de belangrijkste termen opschrijft die bij elk bericht horen
naar zijn normale output. Werkt met vind-goed, vind-spam en partituur.
-v
Wanneer het eenmaal op de opdrachtregel verschijnt, vertelt deze optie SpamProbe om uitgebreid te schrijven
informatie tijdens de verwerking. Wanneer deze optie twee keer op de opdrachtregel verschijnt
vertelt SpamProbe om foutopsporingsinformatie naar stderr te schrijven. Dit kan handig zijn voor
debuggen of om te zien welke termen SpamProbe gebruikte om elke e-mail te beoordelen.
-V
Drukt versie- en copyrightinformatie af en sluit vervolgens af.
-w aantal
Wijzigt het aantal belangrijkste woorden/zinnen dat door SpamProbe wordt gebruikt om te berekenen
de score voor elk bericht. Over het algemeen wordt dit alleen gewijzigd voor optimalisatiedoeleinden.
-x
Normaal gesproken gebruikt SpamProbe slechts een vast aantal toptermen (zoals ingesteld door de -w commando
lijnoptie) bij het scoren van e-mails. De -x optie kan worden gebruikt om de array toe te staan
uitgebreid tot voorbij de maximale grootte als er meer termen beschikbaar zijn met waarschijnlijkheden <= 0.1 of >=
0.9.
-X
Een interessante variatie op de score-instellingen. Gelijk aan gebruiken -w5 -r5 -x so
dat over het algemeen alleen woorden met waarschijnlijkheden <= 0.1 of >= 0.9 worden gebruikt
frequenties in de e-mail tellen zwaar mee voor de score. Uit tests is gebleken dat dit het geval is
instelling is meestal veiliger (minder valse positieven) en heeft een hogere herinnering (juiste
classificatie van spamberichten die eerder als spam zijn beoordeeld), hoewel de voorspellende kracht dat niet is
net zo goed als de standaardinstellingen. WAARSCHUWING: Deze instelling werkt mogelijk het beste met een
vrij groot corpus, het is niet getest met een klein corpus, dus het kan erg zijn
onnauwkeurig met in totaal minder dan 1000 berichten.
-Y
Ga uit van het traditionele Berkeley-mailboxformaat en negeer eventuele Content-Length:-velden.
-7
Vertelt SpamProbe om alle tekens te negeren waarvan de meest significante bit is ingesteld op 1
in plaats van ze toe te wijzen aan de letter 'z'.
-8
Vertelt SpamProbe om alle tekens op te slaan, zelfs als hun meest significante bit is ingesteld
1.
COMMANDO'S
SpamProbe herkent de volgende commando's:
spamprobe uw [ commando ]
Zonder argumenten geeft SpamProbe alle geldige opdrachten weer. Als een of meer commando's
zijn gespecificeerd na het woord help, zal SpamProbe een uitgebreidere beschrijving afdrukken
elke opdracht.
spamprobe creëren-db
Als er momenteel geen database bestaat, zal SpamProbe proberen er een te maken en vervolgens afsluiten.
Dit kan worden gebruikt om een nieuwe installatie op te starten. Strikt genomen is dit bevel dat wel
niet nodig sinds de trein-spam, trein-goed en auto-trein commando's zullen dat ook doen
maak een database als er nog geen bestaat, maar sommige gebruikers willen graag een database maken als een
aparte installatiestap.
spamprobe maak-config
Schrijft een nieuw configuratiebestand met de naam spamprobe.hdl naar de databasemap
(normaal gesproken $HOME/.spamprobe). Elk bestaand configuratiebestand wordt zo overschreven
Zorg ervoor dat u een kopie maakt voordat u deze opdracht uitvoert.
spamprobe ontvangen [ bestandsnaam...]
Vertelt SpamProbe om de standaardinvoer te lezen (of een bestand dat is opgegeven na ontvangst
commando) en scoor het met behulp van de huidige databases. Zodra het bericht is gescoord
het bericht wordt geclassificeerd als spam of niet-spam en het aantal woorden wordt genoteerd
naar de juiste database. De score van het bericht wordt samen met a naar stdout geschreven
een woord. Bijvoorbeeld:
SPAM 0.9999999 595f0150587edd7b395691964069d7af
GOOD 0.0200000 595f0150587edd7b395691964069d7af
De reeks hexadecimale cijfers na de partituur is de “MD5-digest” van het bericht, een 128-bits
nummer dat het bericht uniek identificeert. De samenvatting wordt door SpamProbe gebruikt
berichten herkennen die het eerder heeft verwerkt, zodat het zijn woord kan houden
telt consistent als het bericht opnieuw wordt geclassificeerd.
De -T optie vermeldt bovendien de termen die worden gebruikt om de partituur te produceren
hun tellingen (het aantal keren dat ze in het bericht zijn gevonden).
spamprobe Train [ bestandsnaam...]
Functioneel identiek aan ontvangen behalve dat de database alleen wordt gewijzigd als de
boodschap was “moeilijk” te classificeren. In de praktijk kan dit het aantal verminderen
database-updates tot slechts 10% van de ontvangen berichten.
spamprobe partituur [ bestandsnaam...]
Vergelijkbaar met ontvangen, behalve dat de database op geen enkele manier is gewijzigd.
spamprobe samenvatten [ bestandsnaam...]
Soortgelijke partituur behalve dat er voor elk bericht een korte samenvatting en score wordt afgedrukt.
Dit kan handig zijn bij het testen. De ... gebruiken -T optie vermeldt bovendien de gebruikte termen
om de score samen met hun tellingen te produceren (het aantal keren dat ze zijn gevonden in de
bericht).
spamprobe vind-spam [ bestandsnaam...]
Soortgelijke partituur behalve dat het een korte samenvatting en score voor elk bericht afdrukt
wordt vastgesteld dat het spam is. Dit kan handig zijn bij het testen. De ... gebruiken -T optie
vermeldt bovendien de termen die zijn gebruikt om de score te produceren, samen met hun tellingen (getal
aantal keren dat ze in het bericht zijn aangetroffen).
spamprobe vind-goed [ bestandsnaam...]
Soortgelijke partituur behalve dat het een korte samenvatting en score voor elk bericht afdrukt
is vastbesloten goed te zijn. Dit kan handig zijn bij het testen. De ... gebruiken -T optie
vermeldt bovendien de termen die zijn gebruikt om de score te produceren, samen met hun tellingen (getal
aantal keren dat ze in het bericht zijn aangetroffen).
spamprobe auto-trein { SPAM|GOED bestandsnaam ... } ...
Pogingen om op efficiënte wijze een database op te bouwen van alle genoemde bestanden. U kunt dit specificeren
een of meer bestanden van elk type. Voorafgaand aan elke set bestandsnamen moet u de
woord sPAM or GOED om aan te geven welk type e-mail zich in de volgende bestanden bevindt
op de opdrachtregel.
Het geval van de sPAM en GOED trefwoorden is belangrijk. Er kan een willekeurig aantal bestandsnamen zijn
tussen de trefwoorden vermeld. Het opdrachtregelformaat is zeer flexibel. Je kan zelfs
gebruik een find-opdracht in backticks om hele directorybomen met bestanden te verwerken. Voor
voorbeeld:
spamprobe auto-train SPAM spams/* GOED `vind hammen -type f`
SpamProbe scant de bestanden vooraf om te bepalen hoeveel e-mails van elk type bestaan en vervolgens
traint op hammen en spams in een willekeurige volgorde die de instroom van elk type zo in evenwicht brengt
dat het treincommando het meest effectief kan werken. Als u bijvoorbeeld 400 hammen had en
400 spams, auto-train verwerkt doorgaans één spam, daarna één ham, enz. Als dat het geval was
4000 spams en 400 hammen, waarna de automatische trein doorgaans 10 spams verwerkt, daarna één ham,
enz.
Omdat het uitvoeren van deze opdracht waarschijnlijk veel tijd in beslag zal nemen, is het vaak wenselijk om deze te gebruiken
met de optie -v om voortgangsinformatie te zien terwijl de berichten worden verwerkt.
spamprobe -v auto-train SPAM spams/* GOEDE hammen/*
spamprobe goed [ bestandsnaam...]
Scant elk bestand (of stdin als er geen bestand is opgegeven) en classificeert elke e-mail in de
bestand als niet-spam. De databases worden op passende wijze bijgewerkt. Berichten eerder
die als goed zijn geclassificeerd (herkend met behulp van hun MD5-samenvatting) worden genegeerd. Berichten
die voorheen als spam waren geclassificeerd, worden opnieuw geclassificeerd als goed.
spamprobe trein-goed [ bestandsnaam...]
Functioneel identiek aan goed commando, behalve dat het alleen de database bijwerkt
berichten die onjuist zijn geclassificeerd (dwz als spam zijn geclassificeerd) of dat wel zijn
‘moeilijk’ te classificeren. In de praktijk kan dit het aantal database-updates reduceren tot zo
slechts 10% van de berichten.
spamprobe spam [ bestandsnaam...]
Scant elk bestand (of stdin als er geen bestand is opgegeven) en classificeert elke e-mail in de
bestand als spam. De databases worden op passende wijze bijgewerkt. Eerder geclassificeerde berichten
als spam (herkend aan de hand van hun MD5-samenvatting van bericht-ID's) worden genegeerd. Berichten
die voorheen als goed waren geclassificeerd, worden opnieuw geclassificeerd als spam.
spamprobe trein-spam [ bestandsnaam...]
Functioneel identiek aan spam commando, behalve dat het alleen de database bijwerkt
berichten die onjuist zijn geclassificeerd (dat wil zeggen als goed zijn geclassificeerd) of dat wel zijn
‘moeilijk’ te classificeren. In de praktijk kan dit het aantal database-updates reduceren tot zo
slechts 10% van de berichten.
spamprobe verwijderen [ bestandsnaam...]
Scant elk bestand (of stdin als er geen bestand is opgegeven) en verwijdert de termaantallen ervan
de databank. Berichten die niet in de database staan (herkend met behulp van hun MD5
overzicht van bericht-ID's) worden genegeerd.
spamprobe schoonmaken [ junk_count [ max_leeftijd ] ]
Scant de database en verwijdert alle termen met junk_count of minder (standaard 2) welke
hun tellingen zijn in ieder geval niet gewijzigd max_leeftijd dagen (standaard 7). Jij kan
geef meerdere paren aantal/leeftijd op op één opdrachtregel, maar moet beide opgeven
telling en een leeftijd voor alle tellingen, behalve de laatste telling. Dit moet periodiek worden uitgevoerd om dit te behouden
de database groeit niet eindeloos.
spamprobe zuivering [ junk_count ]
Vergelijkbaar met opruimen, maar dwingt de onmiddellijke verwijdering van alle termen met totaalaantal af
minder dan junk_count (standaard is 2), ongeacht hoe lang het geleden is dat ze dat waren
gewijzigd (dat wil zeggen, zelfs als ze vandaag pas zijn toegevoegd). Dit kan meteen handig zijn
na het classificeren van een grote mailbox met historische spam of goede e-mail om ruimte voor te maken
de volgende batch.
spamprobe zuiveringsvoorwaarden regex
Vergelijkbaar met opschonen, behalve dat het alle termen uit de database verwijdert die overeenkomen met de
gespecificeerde reguliere expressie. Wees voorzichtig met deze opdracht, omdat deze kan worden verwijderd
veel meer termen dan je verwacht. Gebruik storten met dezelfde regex voordat u dit uitvoert
commando om precies te zien wat er zal worden verwijderd.
spamprobe bewerkingstermijn termijn goede_telling spam_count
Kan worden gebruikt om specifiek de goede en spamtellingen van een term in te stellen. Of dit nu zo is
echt nuttig is twijfelachtig, maar het wordt voor de volledigheid vermeld.
spamprobe storten [ regex ]
Drukt de inhoud van de database met woordentellingen af, één woord per regel, leesbaar voor mensen
formaat met spamwaarschijnlijkheid, goede telling, spamtelling, vlaggen en woord in kolommen
gescheiden door witruimte. Wanneer gegeven, wordt de regex argument beperkt de uitvoer tot matching
tokens.
spamprobe tokenize [ bestandsnaam ]
Drukt de in het bestand gevonden tokens af met één woord per regel in een voor mensen leesbaar formaat
spamwaarschijnlijkheid, goede telling, spamtelling, aantal berichten en woord in gescheiden kolommen
door witruimte. Termen worden vermeld in de volgorde waarin ze in het bestand zijn aangetroffen
bericht. Het standaard unix sorteercommando kan worden gebruikt om de termen naar wens te sorteren.
spamprobe exporteren
Vergelijkbaar met de storten commando, maar drukt de tellingen en woorden af in een komma gescheiden
formaat met de woorden omgeven door dubbele aanhalingstekens. Dit kan nuttiger zijn voor
importeren in sommige databases.
spamprobe importeren
Leest de opgegeven bestanden die exportgegevens moeten bevatten die zijn geschreven door de exporteren
commando. De termen en tellingen uit dit bestand worden toegevoegd aan de database. Dit kan zijn
gebruikt om een database van een eerdere versie te converteren.
Voorbeelden
Extern Tokenizers
Ervan uitgaande dat u een tokenizer tokenize.pl heeft, kunt u in uw procmailrc-bestand het volgende gebruiken:
SCORE=| tokenize.pl | /usr/bin/spamprobe -o tokenized trein
Opvragen brievenbussen
Gebruik deze opdracht om alle woorden van 'meest goed' tot 'minst goed' op te sommen:
spamprobe-tokeniseren bestandsnaam | sorteer -k 1n -k 2nr
Gebruik deze opdracht om alle woorden van 'meest spam' tot 'minst spam' weer te geven:
spamprobe-tokeniseren bestandsnaam | sorteer -k 1nr -k 3nr
Opvragen De Database
Te gebruiken spamprobe storten om een voor mensen leesbare lijst met tokens in de database van SpamProbe te krijgen.
Berkeley DB sorteert termen alfabetisch; uitvoer doorsturen naar de standaard Unix sorteren(1)
commando kan worden gebruikt om de termen naar wens te sorteren.
Gebruik dit om alle woorden in de database van SpamProbe op te sommen van “meest goed” tot “minst goed”.
opdracht:
spamprobe-dump | sorteer -k 1n -k 2nr
Gebruik deze opdracht om alle woorden van 'meest spam' tot 'minst spam' weer te geven:
spamprobe-dump | sorteer -k 1nr -k 3nr
Optioneel kunt u een reguliere expressie opgeven. Indien gespecificeerd zal SpamProbe alleen dumpen
termen die overeenkomen met de reguliere expressie. Bijvoorbeeld:
spamprobe dump 'financiën'
spamprobe-dump '\\bfinanciën\\b'
spamprobe-dump 'HSubject_.*finance'
DATABASE ONDERHOUD
Als er geen voorziening wordt getroffen, zullen de databases van SpamProbe voortdurend groeien tijdens het classificeren
berichten. Om oude, ongebruikte vermeldingen te verwijderen, moet u uitvoeren schoonmaken regelmatig
basis, het gemakkelijkst uit cron(1).
# dagelijks om 00:03
# verwijder vermeldingen met aantal <= 2 die dat niet hebben gedaan
# is de afgelopen 2 weken aangeraakt vanaf
# spamprobe-database
3 0 * * * /usr/bin/spamprobe opruimen 2 14
Als alternatief wilt u wellicht een veel hoger aantal (1000 in dit voorbeeld) voor termen gebruiken
die al ongeveer zes maanden niet meer zijn gezien:
3 0 * * * /home/brian/bin/spamrobe opruimen 1000 180 2 14
Door de manier waarop Berkeley DB werkt, zal het databasebestand niet echt krimpen, maar
nieuw toegevoegde termen kunnen de ruimte gebruiken die eerder werd ingenomen door verwijderde termen
zodat de groei van het bestand aanzienlijk langzamer zou moeten zijn als deze opdracht wordt gebruikt.
Om de database daadwerkelijk te verkleinen, kunt u een nieuwe bouwen met behulp van het Berkeley DB-hulpprogramma
programma's db_dump(1) en db_laden(1) of de SpamProbeimporteren en exporteren opdrachten. Voor
voorbeeld:
cd ~
mkdir new.spamprobe
spamprobe-export | spamprobe -d ~/new.spamprobe importeren
mv .spamprobe oud.spamprobe
mv nieuw.spamprobe .spamprobe
De -P optie kan ook worden gebruikt om de groeisnelheid van de database bij het importeren te beperken
een groot aantal e-mails. Als u bijvoorbeeld 1000 e-mails wilt classificeren en wilt
SpamProbe om zeldzame termen elke 100 berichten te verwijderen, gebruikt u een opdracht zoals:
spamprobe -P 100 goed goede mailboxnaam
gebruik -P vertraagt de classificatie, maar kan de noodzaak om de exporteren/importeren
truc. Let daar op -P heeft alleen zin bij het classificeren van een groot aantal berichten.
Misschien wilt u een bepaald woord dwingen om zeer spamachtig of extreem goed te zijn:
spamprobe bewerkingsterm xanax 0 1000000
spamprobe bewerkingsterm debian 10000000 0
Het vastpinnen van goede voorwaarden helpt spammers in ieder geval.
Gebruik spamprobe online met behulp van onworks.net-services