Ito ang command bmf na maaaring patakbuhin sa OnWorks na libreng hosting provider gamit ang isa sa aming maramihang libreng online na workstation gaya ng Ubuntu Online, Fedora Online, Windows online emulator o MAC OS online emulator
PROGRAMA:
NAME
bmf - mahusay na Bayesian mail filter
SINOPSIS
bmf [-t] [-n] [-s] [-N] [-S] [-f fmt] [-d db] [-i file] [-kn] [-m type] [-p]
[-v] [-V] [-h]
DESCRIPTION
Ang bmf ay isang Bayesian mail filter. Sa normal nitong mode ng pagpapatakbo, nangangailangan ito ng isang mensaheng email
o iba pang teksto sa karaniwang input, gumagawa ng istatistikal na pagsusuri laban sa mga listahan ng "mabuti" at
"spam" na mga salita, nirerehistro ang bagong data, at nagbabalik ng status code na nagsasaad kung o hindi
spam ang mensahe. Ang BMF ay isinulat gamit ang mabilis, zero-copy algorithm, direktang naka-code sa C,
at nakatutok para sa bilis. Nilalayon nitong maging mas mabilis, mas maliit, at mas maraming nalalaman kaysa sa katulad
mga application.
Sinusuportahan ng bmf ang parehong mbox at maildir na mga format ng imbakan ng mail. Awtomatiko itong magpoproseso
maramihang mensahe sa loob ng mbox file nang hiwalay.
Opsyon
Kung walang mga pagpipilian sa command-line, pinoproseso ng bmf ang input, nirerehistro ito bilang alinman sa "mabuti" o
"spam", at ibinabalik ang naaangkop na code ng error. Ang direktoryo ng listahan ng salita at wala
Ang mga wordfile ay nilikha kung wala.
-t Subukan upang makita kung ang input ay spam. Ang mga listahan ng salita ay hindi na-update. May nakasulat na ulat
sa stdout na nagpapakita ng huling marka at ang mga token na may pinakamataas na paglihis ay bumubuo ng mean ng
0.5.
-n Irehistro ang input bilang hindi spam.
-s Irehistro ang input bilang spam.
-N Irehistro ang input bilang hindi spam at i-undo ang naunang pagpaparehistro bilang spam.
-S Irehistro ang input bilang spam at i-undo ang naunang pagpaparehistro bilang hindi spam.
-f fmt Tukuyin ang format ng database. Ang mga wastong format ay text, db, at mysql. Ang text ay palaging
wasto. Ang iba ay maaaring hindi magagamit kung ang kaukulang opsyon ay hindi pinagana sa
oras ng pag-compile. Ang default ay db kung magagamit, kung hindi ay text.
-d db Tukuyin ang database o direktoryo para sa paglo-load at pag-save ng mga listahan ng salita. Ang default ay
~/.bmf sa text mode.
-i file Gamitin ang file para sa input sa halip na stdin.
-k n Tukuyin ang bilang ng mga extrema (tagabantay) na gagamitin sa pagkalkula ng Bayes. Ang default
ay 15.
-m fmt Tukuyin ang format ng imbakan ng mail. Ang mga wastong format ay mbox at maildir. Ang default ay sa
awtomatikong makita ang format ng imbakan ng mail. Hindi na ginagamit ang opsyong ito.
-p Kopyahin ang input sa output (passthrough) at ipasok ang mga header ng spam sa istilo ng
SpamAssassin. Ang isang header ng X-Spam-Status ay palaging inilalagay na may mga detalye ng pagproseso. Ang
ang mga nilalaman ng header na ito ay palaging nagsisimula sa alinman sa "Oo" o "Hindi". Kung ang input ay hinuhusgahan sa
maging spam, ang header na "X-Spam-Flag: YES" ay ipinapasok din.
-v Maging mas verbose. Ang opsyon na ito ay hindi pa rin sinusuportahan.
-V Ipakita ang impormasyon ng bersyon.
-h Ipakita ang impormasyon sa paggamit.
TEORYA OF OPERASYON
Tinatrato ng bmf ang input nito bilang isang bag ng mga token. Ang bawat token ay sinusuri laban sa "mabuti" at "masama"
mga wordlist, na nagpapanatili ng bilang ng mga bilang ng beses na nangyari ito sa hindi spam at
spam mail. Ang mga numerong ito ay ginagamit upang kalkulahin ang posibilidad na ang isang mail kung saan ang
Ang token na nangyayari ay spam. Matapos makalkula ang mga probabilidad para sa lahat ng mga token ng input, isang naayos
ang bilang ng mga probabilidad na lumihis ng pinakamalayo mula sa average ay pinagsama gamit ang Bayes's
teorama sa mga probabilidad ng kondisyon.
Bagama't ang paraang ito ay tila bastos kumpara sa mas karaniwang diskarte sa pagtutugma ng pattern, ito
lumalabas na napaka-epektibo. Ang papel ni Paul Graham na Isang Plano Para sa Spam:
http://www.paulgraham.com/spam.html ay inirerekomendang basahin.
Pinagbubuti ng bmf ang panukala ni Paul sa pamamagitan ng paggawa ng mas matalinong pagsusuri sa leksikal. Sa partikular,
hindi itinatapon ang mga hostname at IP address, at ang ilang uri ng impormasyon ng MTA ay
itinapon (tulad ng mga message id at petsa).
Ang MIME at iba pang mga attachment ay hindi na-decode. Karanasan mula sa panonood ng mga token stream
nagmumungkahi na ang spam na may mga enclosure ay palaging nagbibigay ng sarili nito sa pamamagitan ng mga pahiwatig sa
mga header at mga bahaging hindi pang-enclosure. Gayunpaman, nais kong magdagdag ng kakayahang mag-decode
quoted-printable at marahil base64 encodings para sa textual attachment.
INTEGRASYON SA OTHER TOOL
Pakitingnan ang /usr/share/doc/bmf/README.gz para sa mga sample at mungkahi.
RETURN Mga halaga
Sa passthrough mode: zero para sa tagumpay, nonzero para sa pagkabigo.
Sa non-passthrough mode: 0 para sa spam; 1 para sa hindi spam; 2 para sa I/O o iba pang mga error.
Gamitin ang bmf online gamit ang mga serbisyo ng onworks.net