ນີ້ແມ່ນຄໍາສັ່ງ spamprobe ທີ່ສາມາດດໍາເນີນການໄດ້ໃນ OnWorks ຜູ້ໃຫ້ບໍລິການໂຮດຕິ້ງຟຣີໂດຍໃຊ້ຫນຶ່ງໃນຫຼາຍສະຖານີເຮັດວຽກອອນໄລນ໌ຂອງພວກເຮົາເຊັ່ນ Ubuntu Online, Fedora Online, Windows online emulator ຫຼື MAC OS online emulator
ໂຄງການ:
NAME
spamprobe - ການກັ່ນຕອງຂີ້ເຫຍື້ອ Bayesian
ສະຫຼຸບສັງລວມ
spamprobe [ທາງເລືອກໃນການ] ຄໍາສັ່ງ [ໄຟ ... ]
ລາຍລະອຽດ
SpamProbe ແມ່ນການກັ່ນຕອງຂີ້ເຫຍື້ອທີ່ອີງໃສ່ການວິເຄາະ Bayesian ຂອງຄວາມຖີ່ຂອງຄໍາທີ່ໃຊ້
ໃນອີເມລ໌ spam ແລະບໍ່ແມ່ນ spam ທີ່ໄດ້ຮັບໂດຍບຸກຄົນ. ຂະບວນການແມ່ນສົມບູນ
ອັດຕະໂນມັດແລະປັບຕົວມັນເອງໃຫ້ກັບປະເພດຂອງອີເມວທີ່ແຕ່ລະຄົນໄດ້ຮັບ.
SpamProbe ຮັບຮູ້ ແລະຖອດລະຫັດໄຟລ໌ແນບ MIME ໃນການເຂົ້າລະຫັດທີ່ອ້າງອີງ-ພິມໄດ້ ແລະ base64.
ໄຟລ໌ແນບຮູບພາບຖືກພິຈາລະນາເປັນຄໍາທີ່ສາມາດສົ່ງສັນຍານ spam ໄດ້. ໂດຍຄ່າເລີ່ມຕົ້ນ, ມັນບໍ່ສົນໃຈ
tags HTML ສໍາລັບຈຸດປະສົງໃຫ້ຄະແນນ.
SpamProbe ຮອງຮັບຮູບແບບກ່ອງຈົດໝາຍ MBOX, MBX ແລະ Maildir. ຮູບແບບເຫຼົ່ານີ້ແມ່ນອັດຕະໂນມັດ
ກວດພົບສໍາລັບກ່ອງຈົດຫມາຍທີ່ໃຊ້ເປັນພາລາມິເຕີຂອງຄໍາສັ່ງ SpamProbe.
spamprobe ໄດ້ຖືກອອກແບບເພື່ອນໍາໃຊ້ໃນຕົວແທນການຈັດສົ່ງເມລ (MDAs) ຄື procmail(1) ຫຼື
ກ່ອງຈົດໝາຍ(1) ເພື່ອຊ່ວຍໃນການກໍານົດ spam.
OPTIONS
ທາງເລືອກທີ່ຮັບຮູ້ແມ່ນ:
-a char
ໂດຍຄ່າເລີ່ມຕົ້ນ SpamProbe ປ່ຽນຕົວອັກສອນທີ່ບໍ່ແມ່ນ ascii (ຕົວອັກສອນທີ່ມີຫຼາຍທີ່ສຸດ
ບິດທີ່ສໍາຄັນຕັ້ງເປັນ 1) ເຂົ້າໄປໃນຕົວອັກສອນ 'z'. ນີ້ແມ່ນເປັນປະໂຫຍດສໍາລັບການ lumping ອາຊີທັງຫມົດ
ຕົວອັກສອນເປັນຄໍາດຽວສໍາລັບການຮັບຮູ້ງ່າຍ. ທາງເລືອກ -a ຊ່ວຍໃຫ້ທ່ານສາມາດປ່ຽນແປງໄດ້
ຕົວອັກສອນກັບສິ່ງອື່ນຖ້າທ່ານບໍ່ມັກຕົວອັກສອນ 'z' ດ້ວຍເຫດຜົນບາງຢ່າງ.
-c
ບອກ SpamProbe ເພື່ອສ້າງໄດເລກະທໍລີຖານຂໍ້ມູນຖ້າມັນບໍ່ມີຢູ່ແລ້ວ.
ໂດຍປົກກະຕິ SpamProbe ອອກມາດ້ວຍຄວາມຜິດພາດໃນການນໍາໃຊ້ຖ້າຫາກວ່າໄດເລກະທໍລີຖານຂໍ້ມູນບໍ່ຢູ່ແລ້ວ
ມີຢູ່ແລ້ວ.
-C ຈໍານວນ
ບອກ SpamProbe ໃຫ້ກຳນົດຄ່າເລີ່ມຕົ້ນ, ຂ້ອນຂ້າງເປັນກາງ, ຄວາມເປັນໄປໄດ້ຂອງຄຳສັບໃດນຶ່ງ.
ບໍ່ມີນ້ໍາຫນັກ (ນັບດີເພີ່ມຂຶ້ນສອງເທົ່າ) ຢ່າງຫນ້ອຍ ຈໍານວນ ໃນ
ຖານຂໍ້ມູນ. ນີ້ປ້ອງກັນບໍ່ໃຫ້ຂໍ້ກໍານົດທີ່ໄດ້ເຫັນພຽງແຕ່ສອງສາມເທື່ອຈາກການມີ
ອິດທິພົນທີ່ບໍ່ສົມເຫດສົມຜົນກ່ຽວກັບຄະແນນຂອງອີເມວທີ່ມີພວກມັນ.
ຄ່າເລີ່ມຕົ້ນແມ່ນ 5. ຕົວຢ່າງຖ້າ ຈໍານວນ ແມ່ນ 5 ຫຼັງຈາກນັ້ນເພື່ອໃຫ້ຄໍາທີ່ໃຊ້ຂອງມັນ
ຄວາມເປັນໄປໄດ້ທີ່ຄິດໄລ່ມັນຈະຕ້ອງໄດ້ເຫັນ 3 ເທື່ອໃນເມລທີ່ດີ, ຫຼື 2 ເທື່ອໃນ
ອີເມວທີ່ດີແລະຄັ້ງດຽວໃນ spam, ຫຼື 5 ເທື່ອໃນ spam, ຫຼືບາງການປະສົມປະສານອື່ນໆເພີ່ມຂຶ້ນ
ຢ່າງໜ້ອຍ 5.
-d [ປະເພດ:] ໄດເລກະທໍລີ
ໂດຍຄ່າເລີ່ມຕົ້ນ SpamProbe ເກັບຮັກສາຖານຂໍ້ມູນຂອງຕົນຢູ່ໃນໄດເລກະທໍລີທີ່ມີຊື່ .spamprobe ພາຍໃຕ້ຂອງທ່ານ
ໄດເລກະທໍລີບ້ານ. ໄດ້ -d ທາງເລືອກອະນຸຍາດໃຫ້ທ່ານລະບຸລະບົບທີ່ແຕກຕ່າງກັນທີ່ຈະນໍາໃຊ້. ນີ້
ເປັນສິ່ງຈໍາເປັນຖ້າໄດເລກະທໍລີເຮືອນຂອງເຈົ້າຖືກຕິດຕັ້ງ NFS ຕົວຢ່າງ.
ຊື່ໄດເລກະທໍລີສາມາດຖືກນໍາຫນ້າດ້ວຍລະຫັດພິເສດເພື່ອບັງຄັບ SpamProbe ໃຊ້ a
ປະເພດສະເພາະຂອງຮູບແບບໄຟລ໌ຂໍ້ມູນ. ປະເພດທີ່ໄດ້ກໍານົດປະກອບມີ:
-d bdb: ເສັ້ນທາງ
ບັງຄັບໃຊ້ໄຟລ໌ຂໍ້ມູນ Berkeley DB.
-d hash: ເສັ້ນທາງ
ບັງຄັບໃຊ້ໄຟລ໌ hash mmapped.
-d ແບ່ງປັນ: ເສັ້ນທາງ
ບັງຄັບໃຊ້ໄຟລ໌ hash ແລະໄຟລ໌ ISAM (ອາດຈະໃຫ້ຄວາມຊັດເຈນດີກວ່າ
hash ທໍາມະດາໃນບາງກໍລະນີ).
ໄດ້ hash: ທາງເລືອກຍັງສາມາດລະບຸຂະຫນາດໄຟລ໌ທີ່ຕ້ອງການເປັນ megabytes ກ່ອນເສັ້ນທາງ.
ຍົກຕົວຢ່າງ -d hash:19:ເສັ້ນທາງ ຈະເຮັດໃຫ້ SpamProbe ໃຊ້ໄຟລ໌ hash 19 MB. ຂະຫນາດ
ຕ້ອງຢູ່ໃນລະດັບ 1-100. ຂະໜາດໄຟລ໌ hash ເລີ່ມຕົ້ນແມ່ນ 16 MB. ເນື່ອງຈາກວ່າໄຟລ໌ hash
ມີຂະຫນາດຄົງທີ່ແລະຄວາມສາມາດທີ່ເຂົາເຈົ້າຄວນຈະຖືກອະນາໄມຂ້ອນຂ້າງມັກຈະໃຊ້
ເຮັດຄວາມສະອາດ ຄໍາສັ່ງ (ເບິ່ງຂ້າງລຸ່ມນີ້) ເພື່ອປ້ອງກັນບໍ່ໃຫ້ພວກມັນເຕັມໄປຫຼືຊ້າເກີນໄປ
ການປະທະກັນທີ່ສໍາຄັນ hash ຫຼາຍ.
ໄຟລ໌ Hash ໃຫ້ປະສິດທິພາບດີກວ່າ Berkeley DB. ຢ່າງໃດກໍຕາມ, ໄຟລ໌ hash ບໍ່ໄດ້
ເກັບຮັກສາຂໍ້ກໍານົດຕົ້ນສະບັບ. ມີພຽງແຕ່ລະຫັດ hash 32 ບິດເທົ່ານັ້ນທີ່ຖືກເກັບຮັກສາໄວ້ກັບແຕ່ລະຄໍາສັບ. ນີ້
ປ້ອງກັນບໍ່ໃຫ້ຜູ້ໃຊ້ຂຸດຄົ້ນຂໍ້ກໍານົດໃນຖານຂໍ້ມູນໂດຍໃຊ້ຄໍາສັ່ງ dump ເພື່ອເບິ່ງ
ຄໍາສັບໃດໂດຍສະເພາະແມ່ນ spammy ຫຼື hammy. ຮູບແບບໄຟລ໌ຂໍ້ມູນເລີ່ມຕົ້ນແມ່ນ Berkeley
BD (bdb).
-D ລະບົບ
ບອກ SpamProbe ໃຫ້ໃຊ້ຖານຂໍ້ມູນໃນໄດເລກະທໍລີທີ່ລະບຸ (ຕ້ອງແຕກຕ່າງຈາກ
ຫນຶ່ງທີ່ລະບຸໄວ້ກັບ -d option) ເປັນຖານຂໍ້ມູນທີ່ໃຊ້ຮ່ວມກັນເພື່ອແຕ້ມຂໍ້ກໍານົດ
ທີ່ບໍ່ໄດ້ກໍານົດໄວ້ໃນຖານຂໍ້ມູນຂອງຜູ້ໃຊ້ເອງ. ນີ້ສາມາດຖືກນໍາໃຊ້ເພື່ອສະຫນອງ a
ຖານຂໍ້ມູນພື້ນຖານທີ່ແບ່ງປັນໂດຍຜູ້ໃຊ້ທັງຫມົດໃນລະບົບ (ໃນ -D directory) ແລະເອກະຊົນ
ຖານຂໍ້ມູນສະເພາະກັບຜູ້ໃຊ້ແຕ່ລະລະບົບ ($HOME/.spamprobe ຫຼື -d ໄດເລກະທໍລີ).
-g ຊື່ພາກສະຫນາມ
ບອກ SpamProbe ວ່າສ່ວນຫົວໃດທີ່ຈະຊອກຫາຄະແນນກ່ອນໜ້າ ແລະຍ່ອຍຂໍ້ຄວາມໃນ. ຄ່າເລີ່ມຕົ້ນ
ແມ່ນ X-SpamProbe. ຊື່ຊ່ອງຂໍ້ມູນບໍ່ແມ່ນຕົວພິມນ້ອຍໃຫຍ່. ໃຊ້ໂດຍຄໍາສັ່ງທັງຫມົດຍົກເວັ້ນ ໄດ້ຮັບ.
-h
ໂດຍຄ່າເລີ່ມຕົ້ນ SpamProbe ຈະເອົາເຄື່ອງໝາຍ HTML ອອກຈາກຂໍ້ຄວາມໃນອີເມວເພື່ອຊ່ວຍຫຼີກເວັ້ນການບໍ່ຖືກຕ້ອງ
ບວກ. ໄດ້ -h ທາງເລືອກອະນຸຍາດໃຫ້ທ່ານສາມາດລົບລ້າງພຶດຕິກໍານີ້ແລະບັງຄັບ SpamProbe
ລວມເອົາຄໍາສັບຈາກພາຍໃນແທັກ HTML ໃນການນັບຄໍາຂອງມັນ. ໃຫ້ສັງເກດວ່າ SpamProbe ສະເຫມີ
ນັບ URL ໃດໆໃນ hrefs ພາຍໃນ tags ບໍ່ວ່າຈະເປັນ -h ຖືກນໍາໃຊ້ຫຼືບໍ່. ການນໍາໃຊ້ທາງເລືອກນີ້ແມ່ນ
ທໍ້ຖອຍໃຈ. ມັນສາມາດເພີ່ມອັດຕາການກວດພົບ spam ເລັກນ້ອຍແຕ່ເວັ້ນເສຍແຕ່ວ່າຜູ້ໃຊ້
ໄດ້ຮັບຈໍານວນອີເມວ HTML ຢ່າງຫຼວງຫຼາຍມັນຍັງມີແນວໂນ້ມທີ່ຈະເພີ່ມຈໍານວນ
ບວກທີ່ບໍ່ຖືກຕ້ອງ.
-H ທາງເລືອກ
ໂດຍຄ່າເລີ່ມຕົ້ນ SpamProbe ພຽງແຕ່ສະແກນສ່ວນຍ່ອຍທີ່ມີຄວາມຫມາຍຂອງສ່ວນຫົວຈາກຂໍ້ຄວາມອີເມວ
ເມື່ອຊອກຫາຄໍາທີ່ຈະໃຫ້ຄະແນນ. ໄດ້ -H ທາງເລືອກອະນຸຍາດໃຫ້ຜູ້ໃຊ້ສາມາດລະບຸເພີ່ມເຕີມ
ສ່ວນຫົວເພື່ອສະແກນ. ຄຸນຄ່າທາງກົດໝາຍແມ່ນ ທັງຫມົດ, ບໍ່ x, none, ຫຼື ປົກກະຕິ. ທັງຫມົດ ສະແກນສ່ວນຫົວທັງໝົດ,
ບໍ່ x ສະແກນສ່ວນຫົວທັງໝົດຍົກເວັ້ນທີ່ເລີ່ມຕົ້ນດ້ວຍ X-, none ບໍ່ໄດ້ສະແກນສ່ວນຫົວ, ແລະ
ປົກກະຕິ ສະແກນຊຸດຫົວປົກກະຕິ.
ນອກເໜືອໄປຈາກຄຸນຄ່າເຫຼົ່ານັ້ນ ເຈົ້າຍັງສາມາດເພີ່ມສ່ວນຫົວໃສ່ລາຍການໄດ້ຢ່າງຊັດເຈນ
headers ເພື່ອປະມວນຜົນໂດຍການເພີ່ມຊື່ header ໃນຕົວພິມນ້ອຍນໍາຫນ້າດ້ວຍເຄື່ອງຫມາຍບວກ.
ຫຼາຍຫົວສາມາດຖືກກໍານົດໂດຍການໃຊ້ຫຼາຍ -H ທາງເລືອກ. ຕົວຢ່າງ, ເພື່ອ
ປະກອບມີພຽງແຕ່ From ແລະ ໄດ້ຮັບ ຫົວຂໍ້ໃນຂອງທ່ານ ການຝຶກອົບຮົມ ຄໍາສັ່ງທີ່ທ່ານສາມາດດໍາເນີນການ
SpamProbe ດັ່ງຕໍ່ໄປນີ້:
spamprobe -Hnone -H+ ຈາກ -H+ ລົດໄຟທີ່ໄດ້ຮັບ
ເພື່ອປະມວນຜົນຊຸດສ່ວນຫົວປົກກະຕິແຕ່ເພີ່ມ SpamAssassin header X-SpamStatus
ທ່ານສາມາດດໍາເນີນການ SpamProbe ດັ່ງຕໍ່ໄປນີ້:
spamprobe -H+x-spam-ສະຖານະລົດໄຟ
-l ຈໍານວນ
ປ່ຽນເກນຄວາມເປັນໄປໄດ້ຂອງສະແປມສຳລັບອີເມວຈາກຄ່າເລີ່ມຕົ້ນ (0.7) ໄປ ຈໍານວນ.
ຕົວເລກຈະຕ້ອງເປັນຄ່າລະຫວ່າງ 0 ຫາ 1. ໂດຍທົ່ວໄປແລ້ວຄ່າຄວນຢູ່ຂ້າງເທິງ 0.5 ຫາ
ຫຼີກລ້ຽງອັດຕາບວກທີ່ບໍ່ຖືກຕ້ອງສູງ. ຕົວເລກຕ່ໍາມີແນວໂນ້ມທີ່ຈະຜະລິດຜົນບວກທີ່ບໍ່ຖືກຕ້ອງຫຼາຍ
ໃນຂະນະທີ່ຕົວເລກທີ່ສູງຂຶ້ນມີແນວໂນ້ມທີ່ຈະຫຼຸດຜ່ອນຄວາມຖືກຕ້ອງ.
-m
ບັງຄັບໃຫ້ SpamProbe ໃຊ້ຮູບແບບ mbox ສໍາລັບການອ່ານອີເມວໃນ ໄດ້ຮັບ ໂໝດ. ປົກກະຕິ
SpamProbe ສົມມຸດວ່າການປ້ອນຂໍ້ມູນໃສ່ ໄດ້ຮັບ ຮູບແບບປະກອບມີຂໍ້ຄວາມດຽວດັ່ງນັ້ນມັນ
ບໍ່ໄດ້ຊອກຫາການແບ່ງຂໍ້ຄວາມ.
-M
ບັງຄັບ SpamProbe ປະຕິບັດການປ້ອນຂໍ້ມູນທັງໝົດເປັນຂໍ້ຄວາມດຽວ. ອັນນີ້ບໍ່ສົນໃຈ From
ສາຍແລະ ເນື້ອຫາ - ຄວາມຍາວ ສ່ວນຫົວໃນການປ້ອນຂໍ້ມູນ.
-o ທາງເລືອກ
ເປີດໃຊ້ຕົວເລືອກພິເສດຕາມຊື່. ໃນປັດຈຸບັນທາງເລືອກພິເສດພຽງແຕ່ແມ່ນ:
-o graham
ເຮັດໃຫ້ SpamProbe ເຮັດຕາມຂັ້ນຕອນການກັ່ນຕອງທີ່ໄດ້ລະບຸໄວ້ໃນເບື້ອງຕົ້ນໃນ [A Plan
ສໍາລັບ Spam].
-o ກຽດຕິຍົດສະຖານະພາບ - ຫົວ
ເຮັດໃຫ້ SpamProbe ບໍ່ສົນໃຈຂໍ້ຄວາມຖ້າພວກເຂົາມີສະຖານະ: ສ່ວນຫົວປະກອບດ້ວຍ a
ນະຄອນຫຼວງ D. ບາງເຄື່ອງແມ່ຂ່າຍເມລໃຊ້ສະຖານະນີ້ເພື່ອຊີ້ບອກຂໍ້ຄວາມທີ່ໄດ້
ຖືກໝາຍໄວ້ສຳລັບການລຶບແຕ່ຍັງບໍ່ໄດ້ຖືກລຶບລ້າງອອກຈາກໄຟລ໌ເທື່ອ.
ຢ່າໃຊ້ທາງເລືອກນີ້ກັບຄໍາສັ່ງຮັບຫຼືຝຶກອົບຮົມໃນໄຟລ໌ procmailrc ຂອງທ່ານ!
ການເຮັດດັ່ງນັ້ນສາມາດເຮັດໃຫ້ spammers ຂ້າມຕົວກອງ. ທາງເລືອກນີ້ແມ່ນຫມາຍຄວາມວ່າ
ໃຊ້ກັບ train-spam ແລະ ລົດໄຟ-ດີ ຄໍາສັ່ງໃນ scripts ແຕ່ລະໄລຍະ
ປັບປຸງຖານຂໍ້ມູນ.
-o ຄະແນນ orig
ເຮັດໃຫ້ SpamProbe ໃຊ້ລະບົບການໃຫ້ຄະແນນຕົ້ນສະບັບຂອງມັນທີ່ຜະລິດທີ່ດີເລີດ
ຜົນໄດ້ຮັບແຕ່ມັກຈະສ້າງຄະແນນ 0 ຫຼື 1 ສໍາລັບຂໍ້ຄວາມທັງຫມົດ.
-o tags ສົງໃສ
ເຮັດໃຫ້ SpamProbe ສະແກນເນື້ອຫາຂອງແທັກ “ໜ້າສົງໄສ” ສຳລັບໂທເຄັນແທນທີ່ຈະເປັນ
ພຽງແຕ່ຖິ້ມພວກເຂົາອອກ. ໃນປັດຈຸບັນພຽງແຕ່ແທັກຕົວອັກສອນທີ່ຖືກສະແກນແຕ່ແທັກອື່ນໆອາດຈະ
ຈະຖືກເພີ່ມເຂົ້າໃນບັນຊີລາຍຊື່ນີ້ໃນສະບັບຕໍ່ມາ.
-o tokenized
ເຮັດໃຫ້ SpamProbe ອ່ານ tokens ຫນຶ່ງຕໍ່ແຖວແທນທີ່ຈະປະມວນຜົນການປ້ອນຂໍ້ມູນເປັນ
ຮູບແບບຈົດໝາຍ. ນີ້ອະນຸຍາດໃຫ້ຜູ້ໃຊ້ສາມາດທົດແທນ SpamProbe ມາດຕະຖານຢ່າງສົມບູນ
tokenizer ຖ້າພວກເຂົາຕ້ອງການແລະແທນທີ່ຈະໃຊ້ບາງໂຄງການພາຍນອກເປັນ tokenizer.
ໃນຮູບແບບນີ້ SpamProbe ພິຈາລະນາເສັ້ນເປົ່າເພື່ອຊີ້ບອກວ່າການສິ້ນສຸດຂອງຫນຶ່ງຂອງຂໍ້ຄວາມ
tokens ແລະການເລີ່ມຕົ້ນຂອງ tokens ຂອງຂໍ້ຄວາມໃຫມ່. SpamProbe ຄິດໄລ່ຂໍ້ຄວາມ
ຍ່ອຍໂດຍອີງໃສ່ເສັ້ນຂອງຂໍ້ຄວາມທີ່ມີ tokens.
ໄດ້ -o ທາງເລືອກສາມາດນໍາໃຊ້ຫຼາຍຄັ້ງແລະທາງເລືອກທີ່ຮ້ອງຂໍທັງຫມົດຈະໄດ້ຮັບການນໍາໃຊ້.
ໃຫ້ສັງເກດວ່າບາງທາງເລືອກອາດຈະຂັດແຍ້ງກັບກັນແລະກັນ, ໃນກໍລະນີທາງເລືອກສຸດທ້າຍ
ຈະເປັນອັນດັບ.
-p ຈໍານວນ
ປ່ຽນແປງຈໍານວນສູງສຸດຂອງຄໍາຕໍ່ປະໂຫຍກ. ຄ່າເລີ່ມຕົ້ນແມ່ນສອງ. ເພີ່ມຂຶ້ນ
limit ປັບປຸງຄວາມຖືກຕ້ອງບາງຢ່າງແຕ່ເພີ່ມຂະຫນາດຖານຂໍ້ມູນ. ການທົດລອງຊີ້ບອກ
ວ່າການເພີ່ມຂຶ້ນເກີນສອງແມ່ນບໍ່ຄຸ້ມຄ່າກັບຄ່າໃຊ້ຈ່າຍເພີ່ມເຕີມໃນອາວະກາດ.
-P ຈໍານວນ
ເຮັດໃຫ້ SpamProbe ປະຕິບັດການລຶບລ້າງຂໍ້ກໍານົດທັງໝົດດ້ວຍການນັບຂີ້ເຫຍື້ອໜ້ອຍກວ່າ ຫຼືເທົ່າກັບ 2
ຫຼັງຈາກທຸກຂໍ້ຄວາມຕົວເລກຖືກປະມວນຜົນ. ການນໍາໃຊ້ທາງເລືອກນີ້ໃນເວລາທີ່ຈັດປະເພດຂະຫນາດໃຫຍ່
ການລວບລວມ spam ສາມາດປ້ອງກັນຖານຂໍ້ມູນຈາກການຂະຫຍາຍຕົວຫຼາຍເກີນໄປໃນຄ່າໃຊ້ຈ່າຍ
ເວລາປຸງແຕ່ງຫຼາຍຂື້ນ ແລະການສູນເສຍຄວາມແມ່ນຍໍາທີ່ເປັນໄປໄດ້.
-r ຈໍານວນ
ປ່ຽນແປງຈໍານວນເວລາທີ່ຄໍາດຽວ / ປະໂຫຍກສາມາດເກີດຂຶ້ນໃນ array ຄໍາເທິງ
ໃຊ້ເພື່ອຄິດໄລ່ຄະແນນສໍາລັບແຕ່ລະຂໍ້ຄວາມ. ການອະນຸຍາດໃຫ້ເຮັດຊ້ໍາອີກຈະຊ່ວຍຫຼຸດຜ່ອນຈໍານວນ
ຄໍາສັບຕ່າງໆໂດຍລວມ (ນັບຕັ້ງແຕ່ຄໍາສັບດຽວຄອບຄອງຫຼາຍກ່ວາຫນຶ່ງຊ່ອງ) ແຕ່ອະນຸຍາດໃຫ້ຄໍາສັບຕ່າງໆທີ່
ເກີດຂື້ນເລື້ອຍໆໃນຂໍ້ຄວາມທີ່ຈະມີນ້ໍາຫນັກທີ່ສູງຂຶ້ນ. ໂດຍທົ່ວໄປແລ້ວນີ້ມີການປ່ຽນແປງ
ພຽງແຕ່ສໍາລັບຈຸດປະສົງການເພີ່ມປະສິດທິພາບ.
-R
ເຮັດໃຫ້ SpamProbe ປະຕິບັດການປ້ອນຂໍ້ມູນເປັນຂໍ້ຄວາມດຽວ ແລະອີງໃສ່ລະຫັດອອກຂອງມັນ
ຂໍ້ຄວາມນັ້ນເປັນສະແປມຫຼືບໍ່. ລະຫັດອອກຈະເປັນ 0 ຖ້າຂໍ້ຄວາມຖືກສະແປມ
ຫຼື 1 ຖ້າຂໍ້ຄວາມດີ.
-s ຈໍານວນ
SpamProbe ຮັກສາຄວາມຊົງຈໍາໃນ cache ຂອງຄໍາທີ່ມັນໄດ້ເຫັນໃນຂໍ້ຄວາມທີ່ຜ່ານມາ
ເພື່ອຫຼຸດຜ່ອນ I/O ແຜ່ນແລະປັບປຸງປະສິດທິພາບ. ໂດຍຄ່າເລີ່ມຕົ້ນ cache ຈະມີຫຼາຍທີ່ສຸດ
ບໍ່ດົນມານີ້ໄດ້ເຂົ້າເຖິງ 2,500 ເງື່ອນໄຂ. ຕົວເລກນີ້ສາມາດປ່ຽນແປງໄດ້ໂດຍໃຊ້ -s ທາງເລືອກ. ການນໍາໃຊ້ ກ
ຂະຫນາດຂອງຖານຄວາມຈໍາທີ່ໃຫຍ່ຂຶ້ນຈະເຮັດໃຫ້ SpamProbe ໃຊ້ຄວາມຊົງຈໍາຫຼາຍຂຶ້ນແລະອາດຈະ
ປະຕິບັດຖານຂໍ້ມູນ I/O ໜ້ອຍລົງ. ຄ່າຂອງສູນເຮັດໃຫ້ SpamProbe ໃຊ້ 100,000 ເປັນ
limit ຊຶ່ງຫມາຍຄວາມວ່າມີປະສິດຕິຜົນວ່າ cache ຈະຖືກ flushed ເມື່ອອອກຈາກໂຄງການເທົ່ານັ້ນ
(ເວັ້ນເສຍແຕ່ວ່າທ່ານມີໄຟລ໌ mailbox ຂະຫນາດໃຫຍ່ແທ້ໆ). cache ບໍ່ມີຜົນກະທົບການໄດ້ຮັບ,
dump, ຫຼືສົ່ງອອກແຕ່ມີຜົນກະທົບຢ່າງຫຼວງຫຼາຍຕໍ່ຄົນອື່ນ.
-T
ເຮັດໃຫ້ SpamProbe ຂຽນຂໍ້ກໍານົດເທິງສຸດທີ່ກ່ຽວຂ້ອງກັບແຕ່ລະຂໍ້ຄວາມເພີ່ມເຕີມ
ກັບຜົນຜະລິດປົກກະຕິຂອງມັນ. ເຮັດວຽກກັບ ຊອກຫາດີ, ຊອກຫາ spam, ແລະ ຄະແນນ.
-v
ເມື່ອມັນປາກົດຫນຶ່ງຄັ້ງໃນແຖວຄໍາສັ່ງທາງເລືອກນີ້ບອກ SpamProbe ໃຫ້ຂຽນ verbose
ຂໍ້ມູນໃນລະຫວ່າງການປຸງແຕ່ງ. ເມື່ອມັນປາກົດສອງຄັ້ງໃນແຖວຄໍາສັ່ງທາງເລືອກນີ້
ບອກ SpamProbe ໃຫ້ຂຽນຂໍ້ມູນການດີບັກໄປຫາ stderr. ນີ້ສາມາດເປັນປະໂຫຍດສໍາລັບ
debugging ຫຼືສໍາລັບການເບິ່ງຄໍາທີ່ SpamProbe ໃຊ້ເພື່ອຄະແນນແຕ່ລະອີເມລ໌.
-V
ພິມສະບັບແລະຂໍ້ມູນລິຂະສິດແລະຫຼັງຈາກນັ້ນອອກ.
-w ຈໍານວນ
ປ່ຽນຈຳນວນຄຳສັບ/ວະລີທີ່ສຳຄັນທີ່ສຸດທີ່ໃຊ້ໂດຍ SpamProbe ເພື່ອຄຳນວນ
ຄະແນນສໍາລັບແຕ່ລະຂໍ້ຄວາມ. ໂດຍທົ່ວໄປແລ້ວອັນນີ້ຖືກປ່ຽນແປງເພື່ອຈຸດປະສົງການເພີ່ມປະສິດທິພາບເທົ່ານັ້ນ.
-x
ໂດຍປົກກະຕິ SpamProbe ໃຊ້ພຽງແຕ່ຈໍານວນຄົງທີ່ຂອງຂໍ້ກໍານົດເທິງ (ຕາມທີ່ກໍານົດໂດຍ -w ຄໍາສັ່ງ
line option) ເມື່ອໃຫ້ຄະແນນອີເມວ. ໄດ້ -x ທາງເລືອກສາມາດຖືກນໍາໃຊ້ເພື່ອອະນຸຍາດໃຫ້ array ເປັນ
ຂະຫຍາຍຜ່ານຂະຫນາດສູງສຸດຖ້າຫາກວ່າມີຂໍ້ກໍານົດຫຼາຍທີ່ມີຄວາມເປັນໄປໄດ້ <= 0.1 ຫຼື >=
0.9.
-X
ການປ່ຽນແປງທີ່ຫນ້າສົນໃຈກ່ຽວກັບການຕັ້ງຄ່າການໃຫ້ຄະແນນ. ເທົ່າກັບການນໍາໃຊ້ -w5 -r5 -x so
ໂດຍທົ່ວໄປແລ້ວມີພຽງແຕ່ຄໍາທີ່ມີ probabilites <= 0.1 ຫຼື >= 0.9 ເທົ່ານັ້ນທີ່ຖືກນໍາໃຊ້ແລະຄໍາສັບ
ຄວາມຖີ່ໃນອີເມວນັບຫຼາຍຕໍ່ກັບຄະແນນ. ການທົດສອບໄດ້ສະແດງໃຫ້ເຫັນວ່ານີ້
ການຕັ້ງຄ່າມີແນວໂນ້ມທີ່ຈະມີຄວາມປອດໄພກວ່າ (ໃນທາງບວກທີ່ບໍ່ຖືກຕ້ອງຫນ້ອຍ) ແລະມີການເອີ້ນຄືນສູງຂຶ້ນ (ເຫມາະສົມ
ການຈັດປະເພດຂອງ spams ກ່ອນຫນ້ານີ້ໄດ້ຄະແນນເປັນ spam) ເຖິງແມ່ນວ່າພະລັງງານຄາດຄະເນຂອງມັນບໍ່ແມ່ນ
ຂ້ອນຂ້າງດີເທົ່າກັບການຕັ້ງຄ່າເລີ່ມຕົ້ນ. ຄໍາເຕືອນ: ການຕັ້ງຄ່ານີ້ອາດຈະໃຊ້ໄດ້ດີທີ່ສຸດກັບ a
corpus ຂະຫນາດໃຫຍ່ພໍສົມຄວນ, ມັນບໍ່ໄດ້ຖືກທົດສອບດ້ວຍ corpus ຂະຫນາດນ້ອຍດັ່ງນັ້ນມັນອາດຈະຫຼາຍ
ບໍ່ຖືກຕ້ອງທີ່ມີຫນ້ອຍກ່ວາ 1000 ຂໍ້ຄວາມທັງຫມົດ.
-Y
ສົມມຸດວ່າຮູບແບບກ່ອງຈົດໝາຍຂອງ Berkeley ແບບດັ້ງເດີມ, ໂດຍບໍ່ສົນເລື່ອງຄວາມຍາວຂອງເນື້ອຫາ: ຊ່ອງຂໍ້ມູນ.
-7
ບອກ SpamProbe ໃຫ້ລະເລີຍຕົວອັກສອນໃດໆກໍຕາມທີ່ມີບິດທີ່ສຳຄັນທີ່ສຸດທີ່ຕັ້ງເປັນ 1
ແທນທີ່ຈະເຮັດແຜນທີ່ໃຫ້ເຂົາເຈົ້າກັບຕົວອັກສອນ 'z'.
-8
ບອກ SpamProbe ໃຫ້ເກັບຮັກສາຕົວອັກສອນທັງຫມົດເຖິງແມ່ນວ່າບິດທີ່ສໍາຄັນຂອງພວກເຂົາຖືກຕັ້ງເປັນ
1.
ສາມາດ
SpamProbe ຮັບຮູ້ຄໍາສັ່ງຕໍ່ໄປນີ້:
spamprobe ຊ່ວຍເຫຼືອ [ ຄໍາສັ່ງ ]
ໂດຍບໍ່ມີການໂຕ້ຖຽງ SpamProbe ລາຍຊື່ຄໍາສັ່ງທີ່ຖືກຕ້ອງທັງຫມົດ. ຖ້າຫນຶ່ງຫຼືຫຼາຍຄໍາສັ່ງ
ໄດ້ຖືກລະບຸໄວ້ຫຼັງຈາກຄໍາຊ່ວຍເຫຼືອ, SpamProbe ຈະພິມລາຍລະອຽດເພີ່ມເຕີມ verbose ຂອງ
ແຕ່ລະຄໍາສັ່ງ.
spamprobe ສ້າງ-db
ຖ້າບໍ່ມີຖານຂໍ້ມູນປະຈຸບັນ SpamProbe ຈະພະຍາຍາມສ້າງອັນໜຶ່ງແລ້ວອອກ.
ນີ້ສາມາດຖືກນໍາໃຊ້ເພື່ອ bootstrap ການຕິດຕັ້ງໃຫມ່. ເວົ້າຢ່າງເຂັ້ມງວດຄໍາສັ່ງນີ້ແມ່ນ
ບໍ່ຈໍາເປັນນັບຕັ້ງແຕ່ train-spam, ລົດໄຟ-ດີ, ແລະ ລົດໄຟອັດຕະໂນມັດ ຄໍາສັ່ງຍັງຈະ
ສ້າງຖານຂໍ້ມູນຖ້າບໍ່ມີແລ້ວແຕ່ຜູ້ໃຊ້ບາງຄົນມັກສ້າງຖານຂໍ້ມູນເປັນ a
ຂັ້ນຕອນການຕິດຕັ້ງແຍກຕ່າງຫາກ.
spamprobe ສ້າງ config
ຂຽນໄຟລ໌ການຕັ້ງຄ່າໃຫມ່ທີ່ມີຊື່ spamprobe.hdl ເຂົ້າໄປໃນໄດເລກະທໍລີຖານຂໍ້ມູນ
(ປົກກະຕິ $HOME/.spamprobe). ໄຟລ໌ການຕັ້ງຄ່າທີ່ມີຢູ່ແລ້ວໃດໆຈະຖືກຂຽນທັບດັ່ງນັ້ນ
ໃຫ້ແນ່ໃຈວ່າເຮັດສໍາເນົາກ່ອນທີ່ຈະເອີ້ນຄໍາສັ່ງນີ້.
spamprobe ໄດ້ຮັບ [ ຊື່ເອກະສານ... ]
ບອກ SpamProbe ໃຫ້ອ່ານການປ້ອນຂໍ້ມູນມາດຕະຖານຂອງມັນ (ຫຼືໄຟລ໌ທີ່ລະບຸໄວ້ຫຼັງຈາກໄດ້ຮັບ
command) ແລະໃຫ້ຄະແນນມັນໂດຍໃຊ້ຖານຂໍ້ມູນປະຈຸບັນ. ເມື່ອຂໍ້ຄວາມໄດ້ຖືກຄະແນນ
ຂໍ້ຄວາມຖືກຈັດປະເພດເປັນ spam ຫຼືບໍ່ແມ່ນ spam ແລະການນັບຄໍາຂອງມັນຖືກຂຽນ
ກັບຖານຂໍ້ມູນທີ່ເຫມາະສົມ. ຄະແນນຂອງຂໍ້ຄວາມຖືກຂຽນເປັນ stdout ພ້ອມກັບ a
ຄໍາດຽວ. ຍົກຕົວຢ່າງ:
SPAM 0.9999999 595f0150587edd7b395691964069d7af
GOOD 0.0200000 595f0150587edd7b395691964069d7af
ສະຕຣິງຂອງຕົວເລກ hex ຫຼັງຈາກຄະແນນແມ່ນຂໍ້ຄວາມ "MD5-digest", 128 bit.
ຕົວເລກທີ່ເປັນເອກະລັກສະເພາະຂອງຂໍ້ຄວາມ. ການຍ່ອຍສະຫຼາຍແມ່ນໃຊ້ໂດຍ SpamProbe ເພື່ອ
ຮັບຮູ້ຂໍ້ຄວາມທີ່ມັນໄດ້ດໍາເນີນການກ່ອນຫນ້ານີ້ເພື່ອໃຫ້ມັນສາມາດຮັກສາຄໍາເວົ້າຂອງມັນ
ນັບສອດຄ່ອງຖ້າຂໍ້ຄວາມຖືກຈັດປະເພດໃຫມ່.
ການນໍາໃຊ້ -T ທາງເລືອກນອກຈາກນັ້ນລາຍການຂໍ້ກໍານົດການນໍາໃຊ້ເພື່ອຜະລິດຄະແນນພ້ອມກັບ
ການນັບຂອງພວກເຂົາ (ຈໍານວນຄັ້ງທີ່ພວກເຂົາພົບໃນຂໍ້ຄວາມ).
spamprobe ການຝຶກອົບຮົມ [ ຊື່ເອກະສານ... ]
ປະຕິບັດຫນ້າທີ່ຄືກັນກັບ ໄດ້ຮັບ ຍົກເວັ້ນວ່າຖານຂໍ້ມູນຈະຖືກດັດແກ້ພຽງແຕ່ຖ້າ
ຂໍ້ຄວາມແມ່ນ "ຍາກທີ່ຈະຈັດປະເພດ". ໃນການປະຕິບັດນີ້ສາມາດຫຼຸດຜ່ອນຈໍານວນຂອງ
ປັບປຸງຖານຂໍ້ມູນໃຫ້ນ້ອຍເຖິງ 10% ຂອງຂໍ້ຄວາມທີ່ໄດ້ຮັບ.
spamprobe ຄະແນນ [ ຊື່ເອກະສານ... ]
ຄ້າຍຄືກັນທີ່ຈະໄດ້ຮັບຍົກເວັ້ນວ່າຖານຂໍ້ມູນບໍ່ໄດ້ຖືກດັດແກ້ໃນທາງໃດກໍ່ຕາມ.
spamprobe ສະຫຼຸບ [ ຊື່ເອກະສານ... ]
ຄ້າຍຄືກັບ ຄະແນນ ຍົກເວັ້ນແຕ່ວ່າມັນພິມສະຫຼຸບສັ້ນແລະຄະແນນສໍາລັບແຕ່ລະຂໍ້ຄວາມ.
ນີ້ສາມາດເປັນປະໂຫຍດໃນເວລາທີ່ການທົດສອບ. ການນໍາໃຊ້ -T ທາງເລືອກຍັງລາຍການຂໍ້ກໍານົດທີ່ນໍາໃຊ້
ເພື່ອຜະລິດຄະແນນພ້ອມກັບການນັບຂອງພວກເຂົາ (ຈໍານວນຄັ້ງທີ່ພວກເຂົາພົບຢູ່ໃນ
ຂໍ້ຄວາມ).
spamprobe ຊອກຫາ spam [ ຊື່ເອກະສານ... ]
ຄ້າຍຄືກັບ ຄະແນນ ຍົກເວັ້ນແຕ່ວ່າມັນພິມສະຫຼຸບສັ້ນແລະຄະແນນສໍາລັບແຕ່ລະຂໍ້ຄວາມທີ່
ຖືກກໍານົດວ່າເປັນ spam. ນີ້ສາມາດເປັນປະໂຫຍດໃນເວລາທີ່ການທົດສອບ. ການນໍາໃຊ້ -T ທາງເລືອກ
ນອກຈາກນັ້ນລາຍການຂໍ້ກໍານົດທີ່ໃຊ້ໃນການຜະລິດຄະແນນພ້ອມກັບການນັບຂອງເຂົາເຈົ້າ (ຈໍານວນ
ບາງຄັ້ງພວກເຂົາພົບເຫັນຢູ່ໃນຂໍ້ຄວາມ).
spamprobe ຊອກຫາດີ [ ຊື່ເອກະສານ... ]
ຄ້າຍຄືກັບ ຄະແນນ ຍົກເວັ້ນແຕ່ວ່າມັນພິມສະຫຼຸບສັ້ນແລະຄະແນນສໍາລັບແຕ່ລະຂໍ້ຄວາມທີ່
ຖືກກໍານົດໃຫ້ດີ. ນີ້ສາມາດເປັນປະໂຫຍດໃນເວລາທີ່ການທົດສອບ. ການນໍາໃຊ້ -T ທາງເລືອກ
ນອກຈາກນັ້ນລາຍການຂໍ້ກໍານົດທີ່ໃຊ້ໃນການຜະລິດຄະແນນພ້ອມກັບການນັບຂອງເຂົາເຈົ້າ (ຈໍານວນ
ບາງຄັ້ງພວກເຂົາພົບເຫັນຢູ່ໃນຂໍ້ຄວາມ).
spamprobe ລົດໄຟອັດຕະໂນມັດ { ສະແປມ|ດີ ຊື່ເອກະສານ ... } ...
ຄວາມພະຍາຍາມທີ່ຈະມີປະສິດທິພາບສ້າງຖານຂໍ້ມູນຈາກທັງຫມົດຂອງໄຟລ໌ທີ່ມີຊື່. ທ່ານອາດຈະລະບຸ
ໜຶ່ງ ຫຼືຫຼາຍໄຟລ໌ຂອງແຕ່ລະປະເພດ. ກ່ອນທີ່ຈະຕັ້ງຂອງໄຟລ໌ແຕ່ລະທ່ານຕ້ອງໄດ້ປະກອບມີ
ຄໍາ SPAM or GOOD ເພື່ອຊີ້ບອກປະເພດຈົດໝາຍທີ່ບັນຈຸຢູ່ໃນໄຟລ໌ທີ່ຕິດຕາມ
ຢູ່ໃນເສັ້ນຄໍາສັ່ງ.
ກໍລະນີຂອງ SPAM ແລະ GOOD ຄໍາສໍາຄັນແມ່ນສໍາຄັນ. ຈໍານວນຂອງຊື່ໄຟລ໌ສາມາດເປັນ
ລະບຸລະຫວ່າງຄໍາສໍາຄັນ. ຮູບແບບເສັ້ນຄໍາສັ່ງແມ່ນມີຄວາມຍືດຫຍຸ່ນຫຼາຍ. ເຈົ້າສາມາດແມ້ແຕ່
ໃຊ້ຄໍາສັ່ງຊອກຫາໃນ backticks ເພື່ອປະມວນຜົນຕົ້ນໄມ້ໄດເລກະທໍລີທັງຫມົດຂອງໄຟລ໌. ສໍາລັບ
ຍົກຕົວຢ່າງ:
spamprobe auto-train SPAM spams/* GOOD ` find hams -type f`
SpamProbe ສະແກນໄຟລ໌ລ່ວງໜ້າເພື່ອກຳນົດຈຳນວນອີເມວຂອງແຕ່ລະປະເພດ ແລະ ຈາກນັ້ນ
ການຝຶກອົບຮົມກ່ຽວກັບ hams ແລະ spams ໃນລໍາດັບສຸ່ມທີ່ດຸ່ນດ່ຽງການໄຫຼເຂົ້າຂອງແຕ່ລະປະເພດດັ່ງນັ້ນ
ວ່າຄໍາສັ່ງລົດໄຟສາມາດເຮັດວຽກໄດ້ປະສິດທິພາບຫຼາຍທີ່ສຸດ. ຕົວຢ່າງຖ້າທ່ານມີ 400 hams ແລະ
400 spams, auto-train ໂດຍທົ່ວໄປຈະປະມວນຜົນຫນຶ່ງ spam, ຫຼັງຈາກນັ້ນຫນຶ່ງ ham, ແລະອື່ນໆຖ້າຫາກວ່າທ່ານມີ.
4000 spams ແລະ 400 hams ຫຼັງຈາກນັ້ນ auto-train ໂດຍທົ່ວໄປຈະປະມວນຜົນ 10 spams, ຫຼັງຈາກນັ້ນຫນຶ່ງ ham,
ແລະອື່ນໆ
ເນື່ອງຈາກວ່າຄໍາສັ່ງນີ້ອາດຈະໃຊ້ເວລາດົນເພື່ອດໍາເນີນການ, ມັນມັກຈະຕ້ອງການທີ່ຈະນໍາໃຊ້
ມັນມີທາງເລືອກ -v ເພື່ອເບິ່ງຂໍ້ມູນຄວາມຄືບຫນ້າຍ້ອນວ່າຂໍ້ຄວາມຖືກປຸງແຕ່ງ.
spamprobe -v auto-train SPAM spams/* GOOD hams/*
spamprobe ດີ [ ຊື່ເອກະສານ... ]
ສະແກນແຕ່ລະໄຟລ໌ (ຫຼື stdin ຖ້າບໍ່ມີໄຟລ໌ໃດຖືກລະບຸ) ແລະຈັດປະເພດໃຫມ່ໃນທຸກໆອີເມວ
ໄຟລ໌ເປັນທີ່ບໍ່ແມ່ນ spam. ຖານຂໍ້ມູນໄດ້ຖືກປັບປຸງຢ່າງເຫມາະສົມ. ຂໍ້ຄວາມກ່ອນໜ້ານີ້
ການຈັດປະເພດເປັນສິ່ງທີ່ດີ (ຖືກຮັບຮູ້ໂດຍໃຊ້ MD5 digest ຂອງພວກເຂົາ) ຖືກລະເລີຍ. ຂໍ້ຄວາມ
ໃນເມື່ອກ່ອນຖືກຈັດປະເພດເປັນ spam ຖືກຈັດປະເພດໃຫມ່ເປັນດີ.
spamprobe ລົດໄຟ-ດີ [ ຊື່ເອກະສານ... ]
ປະຕິບັດຫນ້າທີ່ຄືກັນກັບ ດີ ຄໍາສັ່ງຍົກເວັ້ນວ່າມັນພຽງແຕ່ປັບປຸງຖານຂໍ້ມູນສໍາລັບ
ຂໍ້ຄວາມທີ່ຖືກຈັດປະເພດບໍ່ຖືກຕ້ອງ (ເຊັ່ນວ່າຖືກຈັດປະເພດເປັນ spam) ຫຼືແມ່ນ
"ຍາກ" ໃນການຈັດປະເພດ. ໃນການປະຕິບັດນີ້ສາມາດຫຼຸດຜ່ອນຈໍານວນຂອງການປັບປຸງຖານຂໍ້ມູນເປັນ
ພຽງເລັກນ້ອຍເປັນ 10% ຂອງຂໍ້ຄວາມ.
spamprobe ຂີ້ເຫຍື້ອ [ ຊື່ເອກະສານ... ]
ສະແກນແຕ່ລະໄຟລ໌ (ຫຼື stdin ຖ້າບໍ່ມີໄຟລ໌ໃດຖືກລະບຸ) ແລະຈັດປະເພດໃຫມ່ໃນທຸກໆອີເມວ
ໄຟລ໌ເປັນ spam. ຖານຂໍ້ມູນໄດ້ຖືກປັບປຸງຢ່າງເຫມາະສົມ. ຂໍ້ຄວາມຖືກຈັດປະເພດກ່ອນໜ້ານີ້
ເປັນ spam (ຮັບຮູ້ໂດຍໃຊ້ MD5 digest ຂອງ ids ຂໍ້ຄວາມຂອງພວກເຂົາ) ຖືກລະເລີຍ. ຂໍ້ຄວາມ
ໃນເມື່ອກ່ອນຖືກຈັດປະເພດເປັນດີຖືກຈັດປະເພດໃໝ່ເປັນ spam.
spamprobe train-spam [ ຊື່ເອກະສານ... ]
ປະຕິບັດຫນ້າທີ່ຄືກັນກັບ ຂີ້ເຫຍື້ອ ຄໍາສັ່ງຍົກເວັ້ນວ່າມັນພຽງແຕ່ປັບປຸງຖານຂໍ້ມູນສໍາລັບ
ຂໍ້ຄວາມທີ່ຖືກຈັດປະເພດບໍ່ຖືກຕ້ອງ (ເຊັ່ນວ່າຈັດປະເພດເປັນດີ) ຫຼືແມ່ນ
"ຍາກ" ໃນການຈັດປະເພດ. ໃນການປະຕິບັດນີ້ສາມາດຫຼຸດຜ່ອນຈໍານວນຂອງການປັບປຸງຖານຂໍ້ມູນເປັນ
ພຽງເລັກນ້ອຍເປັນ 10% ຂອງຂໍ້ຄວາມ.
spamprobe ເອົາ [ ຊື່ເອກະສານ... ]
ສະແກນແຕ່ລະໄຟລ໌ (ຫຼື stdin ຖ້າບໍ່ມີໄຟລ໌ໃດຖືກລະບຸ) ແລະເອົາຄໍາສັບຂອງມັນອອກຈາກ
ຖານຂໍ້ມູນ. ຂໍ້ຄວາມທີ່ບໍ່ມີຢູ່ໃນຖານຂໍ້ມູນ (ຮັບຮູ້ໂດຍໃຊ້ MD5 ຂອງພວກເຂົາ
digest ຂອງ ids ຂໍ້ຄວາມ) ຖືກລະເລີຍ.
spamprobe ເຮັດຄວາມສະອາດ [ junk_count [ ສູງສຸດ_ອາຍຸ ] ]
ສະແກນຖານຂໍ້ມູນແລະເອົາຂໍ້ກໍານົດທັງຫມົດອອກດ້ວຍ junk_count ຫຼືຫນ້ອຍ (ຄ່າເລີ່ມຕົ້ນ 2) ເຊິ່ງ
ຍັງບໍ່ໄດ້ມີການດັດແກ້ຈໍານວນຂອງເຂົາເຈົ້າຢູ່ໃນຢ່າງຫນ້ອຍ ສູງສຸດ_ອາຍຸ ມື້ (ຄ່າເລີ່ມຕົ້ນ 7). ເຈົ້າສາມາດ
ລະບຸຄູ່ການນັບ/ອາຍຸຫຼາຍອັນຢູ່ໃນແຖວຄຳສັ່ງດຽວ ແຕ່ຕ້ອງລະບຸທັງສອງ a
ນັບແລະອາຍຸສໍາລັບທຸກຄົນແຕ່ການນັບສຸດທ້າຍ. ນີ້ຄວນຈະດໍາເນີນການເປັນໄລຍະເພື່ອຮັກສາ
ຖານຂໍ້ມູນຈາກການຂະຫຍາຍຕົວທີ່ບໍ່ມີທີ່ສິ້ນສຸດ.
spamprobe purge [ junk_count ]
ຄ້າຍຄືກັບການທໍາຄວາມສະອາດແຕ່ບັງຄັບໃຫ້ລຶບຂໍ້ຄວາມທັງໝົດໂດຍທັນທີດ້ວຍການນັບທັງໝົດ
ຫນ້ອຍກ່ວາ junk_count (ຄ່າເລີ່ມຕົ້ນແມ່ນ 2) ບໍ່ວ່າມັນຈະເປັນເວລາດົນປານໃດນັບຕັ້ງແຕ່ພວກເຂົາເປັນ
ດັດແກ້ (ie ເຖິງແມ່ນວ່າພວກເຂົາພຽງແຕ່ເພີ່ມໃນມື້ນີ້). ນີ້ອາດຈະເປັນປະໂຫຍດທັນທີ
ຫຼັງຈາກການຈັດປະເພດກ່ອງຈົດຫມາຍຂະຫນາດໃຫຍ່ຂອງ spam ປະຫວັດສາດຫຼືອີເມວທີ່ດີທີ່ຈະສ້າງພື້ນທີ່ສໍາລັບ
batch ຕໍ່ໄປ.
spamprobe ຂໍ້ກໍານົດການລຶບລ້າງ regex
ຄ້າຍຄືກັນກັບການລົບລ້າງເວັ້ນເສຍແຕ່ວ່າມັນເອົາອອກຈາກຖານຂໍ້ມູນຂໍ້ກໍານົດທັງຫມົດທີ່ກົງກັບ
ການສະແດງອອກປົກກະຕິ. ຈົ່ງລະມັດລະວັງກັບຄໍາສັ່ງນີ້ເພາະວ່າມັນສາມາດເອົາອອກໄດ້
ຫຼາຍເງື່ອນໄຂຫຼາຍກວ່າທີ່ທ່ານຄາດຫວັງ. ໃຊ້ dump ກັບດຽວກັນ regex ກ່ອນທີ່ຈະດໍາເນີນການນີ້
ຄໍາສັ່ງເພື່ອເບິ່ງສິ່ງທີ່ຈະຖືກລຶບອອກ.
spamprobe ແກ້ໄຂໄລຍະ ໄລຍະ good_count spam_count
ສາມາດຖືກນໍາໃຊ້ເພື່ອກໍານົດໂດຍສະເພາະຈໍານວນທີ່ດີແລະ spam ຂອງຄໍາສັບໃດຫນຶ່ງ. ບໍ່ວ່າຈະເປັນ
ເປັນປະໂຫຍດແທ້ໆແມ່ນສົງໃສແຕ່ວ່າມັນໄດ້ຖືກສະຫນອງໃຫ້ສໍາລັບຄວາມສົມບູນ.
spamprobe dump [ regex ]
ພິມເນື້ອໃນຂອງຄໍານັບຖານຂໍ້ມູນຫນຶ່ງຄໍາຕໍ່ແຖວໃນມະນຸດສາມາດອ່ານໄດ້
ຮູບແບບທີ່ມີຄວາມເປັນໄປໄດ້ spam, ການນັບທີ່ດີ, ນັບ spam, ທຸງ, ແລະຄໍາທີ່ຢູ່ໃນຖັນ
ແຍກອອກໂດຍຊ່ອງຫວ່າງ. ເມື່ອໃຫ້, ໄດ້ regex argument ຈໍາກັດຜົນຜະລິດທີ່ກົງກັນ
ໂທເຄນ.
spamprobe tokenize [ ຊື່ເອກະສານ ]
ພິມ tokens ທີ່ພົບເຫັນຢູ່ໃນໄຟລ໌ຫນຶ່ງຄໍາຕໍ່ແຖວໃນຮູບແບບທີ່ມະນຸດອ່ານໄດ້ດ້ວຍ
ຄວາມເປັນໄປໄດ້ຂອງ spam, ຈໍານວນທີ່ດີ, ຈໍານວນ spam, ຈໍານວນຂໍ້ຄວາມ, ແລະຄໍາທີ່ຢູ່ໃນຖັນແຍກ
ໂດຍຊ່ອງຫວ່າງ. ຂໍ້ກໍານົດແມ່ນໄດ້ລະບຸໄວ້ໃນຄໍາສັ່ງທີ່ເຂົາເຈົ້າໄດ້ພົບເຫັນຢູ່ໃນ
ຂໍ້ຄວາມ. ຄໍາສັ່ງການຈັດລຽງ unix ມາດຕະຖານສາມາດຖືກນໍາໃຊ້ເພື່ອຈັດຮຽງຂໍ້ກໍານົດຕາມຄວາມຕ້ອງການ.
spamprobe ການສົ່ງອອກ
ຄ້າຍຄືກັນກັບ dump ຄຳສັ່ງແຕ່ພິມຈຳນວນ ແລະຄຳສັບໃນເຄື່ອງໝາຍຈຸດທີ່ແຍກອອກ
ຮູບແບບທີ່ມີຄໍາສັບທີ່ອ້ອມຮອບດ້ວຍວົງຢືມຄູ່. ນີ້ສາມາດເປັນປະໂຫຍດຫຼາຍສໍາລັບ
ນໍາເຂົ້າໃນບາງຖານຂໍ້ມູນ.
spamprobe ການນໍາເຂົ້າ
ອ່ານໄຟລ໌ທີ່ລະບຸໄວ້ເຊິ່ງຕ້ອງມີຂໍ້ມູນສົ່ງອອກທີ່ຂຽນໂດຍ ການສົ່ງອອກ
ຄໍາສັ່ງ. ຂໍ້ກໍານົດແລະການນັບຈາກໄຟລ໌ນີ້ຖືກເພີ່ມໃສ່ຖານຂໍ້ມູນ. ນີ້ສາມາດເປັນ
ໃຊ້ເພື່ອປ່ຽນຖານຂໍ້ມູນຈາກລຸ້ນກ່ອນ.
ຕົວຢ່າງ
ພາຍນອກ ເຄື່ອງໝາຍເລກ
ສົມມຸດວ່າທ່ານມີ tokenizer tokenize.pl, ໃນໄຟລ໌ procmailrc ຂອງທ່ານທ່ານສາມາດນໍາໃຊ້:
SCORE=| tokenize.pl | /usr/bin/spamprobe -o ລົດໄຟ tokenized
ການສອບຖາມ ກ່ອງຈົດ ໝາຍ
ເພື່ອລາຍຊື່ຄໍາສັບທັງຫມົດຈາກ "ດີທີ່ສຸດ" ຫາ "ດີຫນ້ອຍ" ໃຊ້ຄໍາສັ່ງນີ້:
spamprobe tokenize ຊື່ເອກະສານ | sort -k 1n -k 2nr
ເພື່ອລາຍຊື່ທຸກຄໍາຈາກ " spammy ຫຼາຍທີ່ສຸດ" ຫາ " spammy ຫນ້ອຍ" ໃຊ້ຄໍາສັ່ງນີ້:
spamprobe tokenize ຊື່ເອກະສານ | sort -k 1nr -k 3nr
ການສອບຖາມ ໄດ້ ຖານຂໍ້ມູນ
ການນໍາໃຊ້ spamprobe dump ເພື່ອໃຫ້ໄດ້ຮັບລາຍຊື່ໂທເຄັນທີ່ສາມາດອ່ານໄດ້ຂອງມະນຸດຢູ່ໃນຖານຂໍ້ມູນຂອງ SpamProbe.
Berkeley DB ຈັດລຽງຕາມຕົວອັກສອນ; piping output ເຂົ້າໄປໃນ unix ມາດຕະຖານ ການຈັດລຽງ(1)
ຄໍາສັ່ງສາມາດຖືກນໍາໃຊ້ເພື່ອຈັດຮຽງຂໍ້ກໍານົດຕາມຄວາມຕ້ອງການ.
ເພື່ອລາຍຊື່ຄໍາສັບທັງຫມົດໃນຖານຂໍ້ມູນຂອງ SpamProbe ຈາກ "ດີທີ່ສຸດ" ຫາ "ດີຫນ້ອຍ" ໃຊ້ນີ້
ຄໍາສັ່ງ:
spamprobe dump | sort -k 1n -k 2nr
ເພື່ອລາຍຊື່ທຸກຄໍາຈາກ " spammy ຫຼາຍທີ່ສຸດ" ຫາ " spammy ຫນ້ອຍ" ໃຊ້ຄໍາສັ່ງນີ້:
spamprobe dump | sort -k 1nr -k 3nr
ທາງເລືອກທີ່ທ່ານສາມາດກໍານົດການສະແດງອອກປົກກະຕິ. ຖ້າລະບຸ SpamProbe ພຽງແຕ່ຈະ dump
ຂໍ້ກໍານົດທີ່ກົງກັບການສະແດງຜົນປົກກະຕິ. ຍົກຕົວຢ່າງ:
spamprobe dump 'ການເງິນ'
spamprobe dump '\\bfinance\\b'
spamprobe dump 'HSubject_.*finance'
DATABASE ການຮັກສາ
ເມື່ອບໍ່ມີການສະຫນອງ, ຖານຂໍ້ມູນຂອງ SpamProbe ຈະເຕີບໂຕຢ່າງຕໍ່ເນື່ອງໃນຂະນະທີ່ການຈັດປະເພດ
ຂໍ້ຄວາມ. ເພື່ອເອົາລາຍການເກົ່າທີ່ບໍ່ໄດ້ໃຊ້, ທ່ານຄວນດໍາເນີນການ ເຮັດຄວາມສະອາດ ເປັນປົກກະຕິ
ພື້ນຖານ, ງ່າຍທີ່ສຸດຈາກ cron(1).
# ປະຈໍາວັນເວລາ 00:03
# ເອົາລາຍການທີ່ມີຈໍານວນ <= 2 ທີ່ບໍ່ມີ
# ໄດ້ຮັບການສໍາພັດໃນໄລຍະ 2 ອາທິດທີ່ຜ່ານມາຈາກ
# ຖານຂໍ້ມູນຂອງ spamprobe
3 0 * * * /usr/bin/spamprobe cleanup 2 14
ອີກທາງເລືອກ, ທ່ານອາດຈະຕ້ອງການໃຊ້ຈໍານວນທີ່ສູງກວ່າຫຼາຍ (1000 ໃນຕົວຢ່າງນີ້) ສໍາລັບຂໍ້ກໍານົດ
ທີ່ບໍ່ໄດ້ພົບເຫັນໃນປະມານຫົກເດືອນ:
3 0 * * * /home/brian/bin/spamprobe cleanup 1000 180 2 14
ເນື່ອງຈາກວ່າວິທີການທີ່ Berkeley DB ເຮັດວຽກໄຟລ໌ຖານຂໍ້ມູນຈະບໍ່ຫຼຸດລົງຕົວຈິງ, ແຕ່
ຂໍ້ກໍານົດທີ່ເພີ່ມໃຫມ່ຈະສາມາດນໍາໃຊ້ພື້ນທີ່ທີ່ຖືກຄອບຄອງໃນເມື່ອກ່ອນໂດຍຂໍ້ກໍານົດທີ່ຖືກລົບອອກໃດໆ
ດັ່ງນັ້ນການຂະຫຍາຍຕົວຂອງໄຟລ໌ຄວນຈະຊ້າລົງຢ່າງຫຼວງຫຼາຍຖ້າຄໍາສັ່ງນີ້ຖືກນໍາໃຊ້.
ເພື່ອຫຍໍ້ຖານຂໍ້ມູນຕົວຈິງ ທ່ານສາມາດສ້າງອັນໃຫມ່ໂດຍໃຊ້ Berkeley DB utility
ໂຄງການ db_dump(1) ແລະ db_load(1) ຫຼື SpamProbeການນໍາເຂົ້າ ແລະ ການສົ່ງອອກ ຄໍາສັ່ງ. ສໍາລັບ
ຍົກຕົວຢ່າງ:
cd ~
mkdir new.spamprobe
spamprobe ສົ່ງອອກ | spamprobe -d ~/new.spamprobe ການນໍາເຂົ້າ
mv .spamprobe old.spamprobe
mv new.spamprobe .spamprobe
ໄດ້ -P ທາງເລືອກຍັງສາມາດຖືກນໍາໃຊ້ເພື່ອຈໍາກັດອັດຕາການຂະຫຍາຍຕົວຂອງຖານຂໍ້ມູນໃນເວລາທີ່ນໍາເຂົ້າ
ອີເມວຈໍານວນຫລາຍ. ຕົວຢ່າງຖ້າທ່ານຕ້ອງການຈັດປະເພດ 1000 ອີເມວແລະຕ້ອງການ
SpamProbe ເພື່ອລົບລ້າງຄໍາສັບທີ່ຫາຍາກທຸກໆ 100 ຂໍ້ຄວາມໃຊ້ຄໍາສັ່ງເຊັ່ນ:
spamprobe -P 100 goodmailboxname
ການນໍາໃຊ້ -P ຊ້າລົງການຈັດປະເພດແຕ່ສາມາດຫຼີກເວັ້ນຄວາມຕ້ອງການທີ່ຈະນໍາໃຊ້ ການສົ່ງອອກ/ການນໍາເຂົ້າ
trick. ໃຫ້ສັງເກດວ່າ -P ພຽງແຕ່ເຮັດໃຫ້ຄວາມຮູ້ສຶກໃນເວລາທີ່ຈັດປະເພດຂໍ້ຄວາມຈໍານວນຫລາຍ.
ເຈົ້າອາດຈະຕ້ອງການບັງຄັບໃຫ້ຄຳສັບໃດນຶ່ງເປັນ spammy ຫຼືດີຫຼາຍ:
spamprobe ແກ້ໄຂໄລຍະ xanax 0 1000000
spamprobe ແກ້ໄຂໄລຍະ debian 10000000 0
ຢ່າງໜ້ອຍການປັກໝຸດຄຳສັບທີ່ດີມີແນວໂນ້ມທີ່ຈະຊ່ວຍຜູ້ຂີ້ເຫຍື້ອ.
ໃຊ້ spamprobe ອອນໄລນ໌ໂດຍໃຊ້ບໍລິການ onworks.net