นี่คือคำสั่ง bmf ที่สามารถเรียกใช้ในผู้ให้บริการโฮสต์ฟรีของ OnWorks โดยใช้เวิร์กสเตชันออนไลน์ฟรีของเรา เช่น Ubuntu Online, Fedora Online, โปรแกรมจำลองออนไลน์ของ Windows หรือโปรแกรมจำลองออนไลน์ของ MAC OS
โครงการ:
ชื่อ
bmf - ตัวกรองเมล Bayesian ที่มีประสิทธิภาพ
เรื่องย่อ
บีเอ็มเอฟ [-t] [-n] [-s] [-N] [-S] [-f fmt] [-d db] [-i ไฟล์] [-kn] [-m ประเภท] [-p]
[-วี] [-วี] [-เอช]
DESCRIPTION
bmf เป็นตัวกรองเมลแบบเบย์ ในโหมดการทำงานปกติ จะใช้ข้อความอีเมล
หรือข้อความอื่นๆ ที่ป้อนแบบมาตรฐาน ทำการตรวจสอบทางสถิติกับรายการ "ดี" และ
คำ "สแปม" ลงทะเบียนข้อมูลใหม่ และส่งคืนรหัสสถานะที่ระบุว่า
ข้อความนั้นเป็นสแปม BMF เขียนด้วยอัลกอริธึมที่รวดเร็วและไม่มีการคัดลอก เข้ารหัสโดยตรงในภาษา C
และปรับความเร็ว โดยมีจุดมุ่งหมายเพื่อให้เร็วขึ้น เล็กลง และหลากหลายมากขึ้นกว่าที่คล้ายคลึงกัน
การใช้งาน
bmf รองรับทั้งรูปแบบการจัดเก็บเมล mbox และ maildir มันจะประมวลผลโดยอัตโนมัติ
หลายข้อความภายในไฟล์ mbox แยกกัน
OPTIONS
หากไม่มีตัวเลือกบรรทัดคำสั่ง bmf ประมวลผลอินพุต ลงทะเบียนเป็น "ดี" หรือ
"สแปม" และส่งคืนรหัสข้อผิดพลาดที่เหมาะสม ไดเรกทอรี wordlist และไม่มีอยู่
wordfiles จะถูกสร้างขึ้นหากไม่มี
-t ทดสอบเพื่อดูว่าอินพุตนั้นเป็นสแปมหรือไม่ รายการคำศัพท์ไม่ได้รับการปรับปรุง มีการเขียนรายงาน
stdout แสดงคะแนนสุดท้ายและโทเค็นที่มีค่าเบี่ยงเบนสูงสุดเป็นค่าเฉลี่ยของ
0.5.
-n ลงทะเบียนอินพุตว่าไม่ใช่สแปม
-s ลงทะเบียนอินพุตเป็นสแปม
-N ลงทะเบียนข้อมูลที่ป้อนเป็นไม่ใช่สแปมและยกเลิกการลงทะเบียนก่อนหน้านี้เป็นสแปม
-S ลงทะเบียนข้อมูลที่ป้อนเป็นสแปมและยกเลิกการลงทะเบียนก่อนหน้านี้ว่าไม่ใช่สแปม
-f เอฟเอ็มที ระบุรูปแบบฐานข้อมูล รูปแบบที่ถูกต้องคือ text, db และ mysql ข้อความอยู่เสมอ
ถูกต้อง. ตัวเลือกอื่นอาจไม่สามารถใช้ได้หากไม่ได้เปิดใช้งานตัวเลือกที่เกี่ยวข้องที่
รวบรวมเวลา ค่าเริ่มต้นคือ db หากมี มิฉะนั้นจะเป็นข้อความ
-d db ระบุฐานข้อมูลหรือไดเร็กทอรีสำหรับการโหลดและบันทึกรายการคำ ค่าเริ่มต้นคือ
~/.bmf ในโหมดข้อความ
-i ไฟล์ ใช้ไฟล์สำหรับอินพุตแทน stdin
-k n ระบุจำนวน extrema (keepers) ที่จะใช้ในการคำนวณ Bayes ค่าเริ่มต้น
คือ 15
-m เอฟเอ็มที ระบุรูปแบบการจัดเก็บเมล รูปแบบที่ถูกต้องคือ mbox และ maildir ค่าเริ่มต้นคือto
ตรวจหารูปแบบการจัดเก็บอีเมลโดยอัตโนมัติ ตัวเลือกนี้เลิกใช้แล้ว
-p คัดลอกอินพุตไปยังเอาต์พุต (ส่งผ่าน) และแทรกส่วนหัวสแปมในรูปแบบ
สแปมแอสแซสซิน ส่วนหัว X-Spam-Status จะถูกแทรกพร้อมกับรายละเอียดการประมวลผลเสมอ NS
เนื้อหาของส่วนหัวนี้มักจะเริ่มต้นด้วย "ใช่" หรือ "ไม่ใช่" หากอินพุตถูกตัดสินเป็น
เป็นสแปม ส่วนหัว "X-Spam-Flag: YES" ก็ถูกแทรกเข้าไปด้วย
-v มีความละเอียดอ่อนมากขึ้น ตัวเลือกนี้ยังไม่ได้รับการสนับสนุนอย่างดี
-V แสดงข้อมูลเวอร์ชัน
-h แสดงข้อมูลการใช้งาน
ทฤษฎี OF การดำเนินงาน
bmf ถือว่าอินพุตเป็นถุงโทเค็น แต่ละโทเค็นจะถูกตรวจสอบกับ "ดี" และ "ไม่ดี"
รายการคำศัพท์ซึ่งรักษาจำนวนครั้งที่เกิดขึ้นในที่ไม่ใช่สแปมและ
จดหมายขยะ ตัวเลขเหล่านี้ใช้ในการคำนวณความน่าจะเป็นที่จดหมายซึ่ง
โทเค็นที่เกิดขึ้นคือสแปม หลังจากคำนวณความน่าจะเป็นของโทเค็นอินพุตทั้งหมดแล้ว ค่าคงที่
จำนวนของความน่าจะเป็นที่เบี่ยงเบนไปจากค่าเฉลี่ยมากที่สุดจะรวมกันโดยใช้ Bayes's
ทฤษฎีบทความน่าจะเป็นแบบมีเงื่อนไข
แม้ว่าวิธีนี้จะฟังดูหยาบเมื่อเทียบกับวิธีการจับคู่รูปแบบทั่วไป แต่วิธีนี้
กลับกลายเป็นว่ามีประสิทธิภาพอย่างยิ่ง กระดาษของ Paul Graham แผนสำหรับสแปม:
http://www.paulgraham.com/spam.html แนะนำให้อ่าน
bmf ปรับปรุงข้อเสนอของ Paul โดยทำการวิเคราะห์คำศัพท์อย่างชาญฉลาด โดยเฉพาะอย่างยิ่ง,
ชื่อโฮสต์และที่อยู่ IP จะไม่ถูกละทิ้ง และข้อมูล MTA บางประเภทคือ
ทิ้ง (เช่นรหัสข้อความและวันที่)
MIME และไฟล์แนบอื่นๆ จะไม่ถูกถอดรหัส ประสบการณ์จากการดูโทเค่นสตรีม
แสดงให้เห็นว่าสแปมที่มีเปลือกหุ้มมักจะปล่อยตัวเองออกไปผ่านการชี้นำใน
ส่วนหัวและส่วนที่ไม่ใช่สิ่งที่แนบมา อย่างไรก็ตาม ฉันต้องการเพิ่มความสามารถในการถอดรหัส
การเข้ารหัสที่เสนอราคาพิมพ์ได้และบางทีอาจเป็นการเข้ารหัสฐาน 64 สำหรับไฟล์แนบที่เป็นข้อความ
บูรณาการ กับ อื่น ๆ TOOLS
โปรดดู /usr/share/doc/bmf/README.gz สำหรับตัวอย่างและคำแนะนำ
กลับ VALUES
ในโหมดส่งผ่าน: ศูนย์สำหรับความสำเร็จ ไม่ใช่ศูนย์สำหรับความล้มเหลว
ในโหมดไม่ส่งผ่าน: 0 สำหรับสแปม; 1 สำหรับผู้ที่ไม่ใช่สแปม 2 สำหรับ I/O หรือข้อผิดพลาดอื่นๆ
ใช้ bmf ออนไลน์โดยใช้บริการ onworks.net