ນີ້ແມ່ນ spamoracle ຄໍາສັ່ງທີ່ສາມາດດໍາເນີນການໄດ້ໃນ OnWorks ຜູ້ໃຫ້ບໍລິການໂຮດຕິ້ງຟຣີໂດຍໃຊ້ຫນຶ່ງໃນຫຼາຍສະຖານີເຮັດວຽກອອນໄລນ໌ຂອງພວກເຮົາເຊັ່ນ Ubuntu Online, Fedora Online, Windows online emulator ຫຼື MAC OS online emulator
ໂຄງການ:
NAME
spamoracle - ເຄື່ອງມືການຈັດປະເພດ spam
ສະຫຼຸບສັງລວມ
spamoracle [-ການຕັ້ງຄ່າ conf] [-f ຖານຂໍ້ມູນ] ເຄື່ອງຫມາຍ [ mailbox ... ]
spamoracle [-ການຕັ້ງຄ່າ conf] [-f ຖານຂໍ້ມູນ] ເພີ່ມ [-v] - ຂີ້ເຫຍື້ອ ກ່ອງຂີ້ເຫຍື້ອ ... - ດີ ກ່ອງດີ ...
spamoracle [-ການຕັ້ງຄ່າ conf] [-f ຖານຂໍ້ມູນ] ການທົດສອບ [- ນາທີ ບັນຫາ] [-ສູງສຸດ ບັນຫາ] [ mailbox ... ]
spamoracle [-ການຕັ້ງຄ່າ conf] [-f ຖານຂໍ້ມູນ] ລັດ [ mailbox ... ]
spamoracle [-ການຕັ້ງຄ່າ conf] [-f ຖານຂໍ້ມູນ] ບັນຊີລາຍຊື່ regexp ...
spamoracle [-ການຕັ້ງຄ່າ conf] [-f ຖານຂໍ້ມູນ] ສໍາຮອງຂໍ້ມູນ > ໄຟລ໌ສຳຮອງ
spamoracle [-ການຕັ້ງຄ່າ conf] [-f ຖານຂໍ້ມູນ] ການຟື້ນຟູ < ໄຟລ໌ສຳຮອງ
spamoracle [-ການຕັ້ງຄ່າ conf] [-f ຖານຂໍ້ມູນ] ຄໍາເວົ້າ [ mailbox ... ]
ລາຍລະອຽດ
SpamOracle ເປັນເຄື່ອງມືທີ່ຈະຊ່ວຍກວດສອບແລະການກັ່ນຕອງ "spam" ຫ່າງໄກ (unsolicited e-commerce
mail). ມັນດໍາເນີນການໂດຍການວິເຄາະສະຖິຕິຂອງຄໍາທີ່ປາກົດຢູ່ໃນ e-mail,
ການປຽບທຽບຄວາມຖີ່ຂອງຄໍາສັບຕ່າງໆກັບຄໍາທີ່ພົບເຫັນຢູ່ໃນ corpus ທີ່ຜູ້ໃຊ້ສະຫນອງໃຫ້ຮູ້ຈັກ
spam ແລະຮູ້ຈັກອີເມລທີ່ຖືກຕ້ອງຕາມກົດຫມາຍ. ຂັ້ນຕອນການຈັດປະເພດແມ່ນອີງໃສ່ Bayes'
ສູດ, ແລະໄດ້ຖືກອະທິບາຍໄວ້ໃນເອກະສານຂອງ Paul Graham, A ແຜນການ ສໍາລັບການ ຂີ້ເຫຍື້ອ,
http://www.paulgraham.com/spam.html.
ໂຄງການນີ້ໄດ້ຖືກອອກແບບເພື່ອເຮັດວຽກຮ່ວມກັບ procmail(1). ຜົນໄດ້ຮັບຂອງ
ການວິເຄາະແມ່ນຜົນຜະລິດເປັນສ່ວນຫົວຂໍ້ຄວາມເພີ່ມເຕີມ X-Spam: ປະຕິບັດຕາມໂດຍ yes, no or ຮູ້ຈັກ,
ບວກກັບລາຍລະອຽດເພີ່ມເຕີມ. ກົດລະບຽບ procmail ສາມາດທົດສອບນີ້ X-Spam: header ແລະສົ່ງ
e-mail ກັບ mailbox ທີ່ເຫມາະສົມ.
ນອກຈາກນັ້ນ, SpamOracle ຍັງວິເຄາະໄຟລ໌ແນບ MIME, ສະກັດຂໍ້ມູນທີ່ກ່ຽວຂ້ອງ
ເຊັ່ນ: ປະເພດ MIME, ການເຂົ້າລະຫັດຕົວອັກສອນ ແລະຊື່ໄຟລ໌ທີ່ຕິດຄັດມາ, ແລະສະຫຼຸບພວກມັນເປັນ
ເພີ່ມເຕີມ ໄຟລ໌ແນບ X: ສ່ວນຫົວ. ນີ້ອະນຸຍາດໃຫ້ procmail ປະຕິເສດອີເມລ໌ໄດ້ຢ່າງງ່າຍດາຍ
ມີໄຟລ໌ແນບທີ່ໜ້າສົງໄສ, ເຊັ່ນ: Windows executables ທີ່ມັກຈະບົ່ງບອກເຖິງໄວຣັສ.
ສິ່ງທີ່ຕ້ອງມີ ແລະ ຂອບເຂດ ຈຳ ກັດ
ເພື່ອໃຊ້ SpamOracle, ເມລຂອງເຈົ້າຕ້ອງຖືກສົ່ງໄປຫາເຄື່ອງ Unix ທີ່ເຈົ້າມີແກະ
ບັນຊີ. ເຄື່ອງນີ້ຕ້ອງມີ procmail(1) (ເບິ່ງ http://www.procmail.org/) ຕິດຕັ້ງ.
ຂອງທ່ານ ~/.ຕໍ່ ໄຟລ໌ຕ້ອງຖືກຕັ້ງຄ່າເພື່ອແລ່ນອີເມລເຂົ້າມາທັງໝົດ procmail(1). ຖ້າ
ເຄື່ອງແມ່ຂ່າຍເມລຂອງທ່ານສະຫນັບສະຫນູນໂປໂຕຄອນ POP ຫຼື IMAP, ທ່ານຍັງສາມາດໃຊ້ໄດ້ fetchmail(1) ໄປ
ດຶງເອົາຈົດໝາຍຂອງເຈົ້າຈາກເຊີບເວີ ແລະສົ່ງໃຫ້ເຄື່ອງທ້ອງຖິ່ນຂອງເຈົ້າ.
ເພື່ອສະຫນອງ corpus ຂອງຂໍ້ຄວາມທີ່ SpamOracle "ຮຽນຮູ້", ເກັບຮັກສາໄວ້ປະມານ 1000.
ຕ້ອງການອີເມລ໌ຂອງເຈົ້າ. ການຈັດເກັບຕ້ອງຖືກແບ່ງອອກດ້ວຍຕົນເອງ ຫຼືເຄິ່ງອັດຕະໂນມັດ
spams ທີ່ຮູ້ຈັກແລະຂໍ້ຄວາມທີ່ດີທີ່ຮູ້ຈັກ. ຂໍ້ຄວາມທີ່ຖືກຈັດປະເພດບໍ່ຖືກຕ້ອງໃນ corpus (ເຊັ່ນ: spams
ເກັບໄວ້ຜິດພາດໃນບັນດາຂໍ້ຄວາມທີ່ດີ) ຈະຫຼຸດລົງປະສິດທິພາບຂອງ
ການຈັດປະເພດ. ການຈັດເກັບຕ້ອງຢູ່ໃນຮູບແບບ Unix mailbox, ຫຼືໃນ "ຂໍ້ຄວາມຫນຶ່ງຕໍ່ໄຟລ໌"
ຮູບແບບ (a la MH). ຮູບແບບອື່ນໆ, ເຊັ່ນ Emacs' Babyl, ແມ່ນບໍ່ຮອງຮັບ.
ແນວຄວາມຄິດຂອງ "ຄໍາສັບ" ທີ່ໃຊ້ໂດຍ SpamOracle ແມ່ນເລື່ອນໄປສູ່ພາສາເອີຣົບຕາເວັນຕົກ,
ເຊັ່ນ: ຊຸດຕົວອັກສອນ ISO Latin-1 ແລະ Latin-9. ການຊ່ວຍເຫຼືອເບື້ອງຕົ້ນສໍາລັບການເຂົ້າລະຫັດ JIS
ພາສາຍີ່ປຸ່ນສາມາດເລືອກໄດ້ໃນເວລາລວບລວມ. SpamOracle ຈະບໍ່ເຮັດວຽກດີຖ້າທ່ານໄດ້ຮັບ
ອີເມວທີ່ຖືກຕ້ອງຕາມກົດໝາຍຈຳນວນຫຼາຍທີ່ຂຽນໃນຊຸດຕົວອັກສອນອື່ນໆ ເຊັ່ນຊຸດພາສາຈີນ ຫຼືພາສາເກົາຫຼີ.
ຈຸດເລີ່ມຕົ້ນ
ເພື່ອສ້າງຖານຂໍ້ມູນຂອງຄວາມຖີ່ຂອງຄໍາສັບຈາກ corpus, ເຮັດ:
rm ~/.spamoracle.db
spamoracle ເພີ່ມ -v - ດີ ຂໍ້ຄວາມດີ - ຂີ້ເຫຍື້ອ ສະແປມ
ໂດຍຄ່າເລີ່ມຕົ້ນ, ຖານຂໍ້ມູນຈະຖືກເກັບໄວ້ໃນໄຟລ໌ .spamoracle.db ໃນລະບົບເຮືອນຂອງທ່ານ.
ນີ້ສາມາດ overriden ກັບ -f ຕົວເລືອກ: spamoracle -f ຖານຂໍ້ມູນຂອງຂ້ອຍ ເພີ່ມ ... ໄດ້ -v ທາງເລືອກ
ພິມຂໍ້ມູນຄວາມຄືບໜ້າໃນລະຫວ່າງການປະມວນຜົນຂອງ corpus.
ນີ້ສົມມຸດວ່າຂໍ້ຄວາມທີ່ດີ, ບໍ່ແມ່ນ spam ຈາກ corpus ຖືກເກັບໄວ້ໃນໄຟລ໌
ຂໍ້ຄວາມດີ, ແລະຂໍ້ຄວາມຂີ້ເຫຍື້ອທີ່ຮູ້ຈັກໃນໄຟລ໌ ສະແປມ. ທ່ານຍັງສາມາດດຶງເອົາ corpus ໄດ້
ຂໍ້ຄວາມຈາກຫຼາຍໄຟລ໌, ແລະ / ຫຼືປະມວນຜົນໃຫ້ເຂົາເຈົ້າໂດຍຜ່ານການຮຽກຮ້ອງຈໍານວນຫນຶ່ງ SpamOracle:
spamoracle ເພີ່ມ - ດີ ຂໍ້ຄວາມດີ1 ... goodmailsN
spamoracle ເພີ່ມ - ຂີ້ເຫຍື້ອ spammails1 ... spammailsP
ທົດສອບ ການ DATABASE
ເພື່ອກວດເບິ່ງວ່າຖານຂໍ້ມູນຖືກສ້າງຂຶ້ນຢ່າງຖືກຕ້ອງ, ແລະເຮັດຄວາມຄຸ້ນເຄີຍກັບຕົວເອງ
ການວິເຄາະສະຖິຕິທີ່ດໍາເນີນໂດຍ SpamOracle, ເອີ້ນໂຫມດ "ການທົດສອບ" ໃນກ່ອງຈົດຫມາຍທີ່
ທ່ານພຽງແຕ່ນໍາໃຊ້ສໍາລັບການກໍ່ສ້າງ corpus:
spamoracle ການທົດສອບ ຂໍ້ຄວາມດີ | ເພີ່ມເຕີມ
spamoracle ການທົດສອບ ສະແປມ | ເພີ່ມເຕີມ
ສໍາລັບແຕ່ລະຂໍ້ຄວາມໃນກ່ອງຈົດຫມາຍທີ່ໃຫ້, ທ່ານຈະເຫັນສະຫຼຸບເຊັ່ນນີ້:
From: ບໂບ <midhack@ureach.com>
Subject: ການກວດສອບ ນີ້ ອອກ
Score: 1.00 -- 15
ລາຍລະອຽດ: ແກ້ໄຂ: 98 $$$$:98 ທ່ອງເວັບ: 98 asp:95 ກົດ: 93 ສາຍ: 92
ທັນທີ: 90 https:88 ອິນເຕີເນັດ: 87 www:86 U4:85 ບໍ່ແມ່ນ: 14 ເດືອນ: 81
com:75 ທ່ອງເວັບ: 75
ໄຟລ໌ແນບ: cset="GB2312" type="application/octet-stream"
name="Guangwen4.zip"
ໄຟ: inbox/314
ສອງສາຍທໍາອິດແມ່ນພຽງແຕ່ From: ແລະ Subject: ຊ່ອງຂໍ້ມູນຂອງຂໍ້ຄວາມຕົ້ນສະບັບ.
ໄດ້ Score: ເສັ້ນສະຫຼຸບຜົນຂອງການວິເຄາະ. ຕົວເລກທໍາອິດ (ລະຫວ່າງ 0.0 ແລະ
1.0) ແມ່ນຄວາມເປັນໄປໄດ້ທີ່ຂໍ້ຄວາມຕົວຈິງແມ່ນ spam --- ຫຼື, ທຽບເທົ່າ, ລະດັບ.
ຄວາມຄ້າຍຄືກັນຂອງຂໍ້ຄວາມທີ່ມີຂໍ້ຄວາມ spam ໃນ corpus. ຕົວເລກທີສອງ (ນ
integer ລະຫວ່າງ 0 ແລະ 15) ແມ່ນຈໍານວນຂອງ "ຫນ້າສົນໃຈ" ຄໍາທີ່ພົບເຫັນໃນຂໍ້ຄວາມ.
ຄໍາ "ຫນ້າສົນໃຈ" ແມ່ນຄໍາທີ່ເກີດຂື້ນຢ່າງຫນ້ອຍ 5 ເທື່ອໃນ corpus. ໃນຕົວຢ່າງ,
ພວກເຮົາມີ 15 ຄໍາທີ່ຫນ້າສົນໃຈ (ສູງສຸດ) ແລະຄະແນນ 1.00, ຊີ້ໃຫ້ເຫັນ spam ກັບ
ຄວາມແນ່ນອນສູງ.
ໄດ້ ລາຍລະອຽດ: ເສັ້ນໃຫ້ຄໍາອະທິບາຍກ່ຽວກັບຄະແນນ. ມັນລາຍຊື່ 15 ທີ່ຫນ້າສົນໃຈຫຼາຍທີ່ສຸດ
ຄໍາທີ່ພົບເຫັນຢູ່ໃນຂໍ້ຄວາມ, ນັ້ນແມ່ນ, 15 ຄໍາທີ່ຫນ້າສົນໃຈທີ່ມີຄວາມເປັນໄປໄດ້ຂອງ
ການລະບຸ spam ແມ່ນຢູ່ໄກທີ່ສຸດຈາກ 0.5 ທີ່ເປັນກາງ. ແຕ່ລະຄໍາແມ່ນໃຫ້ກັບມັນ
ຄະແນນສ່ວນບຸກຄົນ, ຂຽນເປັນເປີເຊັນ (ລະຫວ່າງ 01 ແລະ 99) ແທນທີ່ຈະເປັນຄວາມເປັນໄປໄດ້
ເພື່ອຊ່ວຍປະຢັດພື້ນທີ່. ໃນທີ່ນີ້, ພວກເຮົາເຫັນຄໍາສັບ "spammish" ຫຼາຍເຊັ່ນ: $$$$ or
ຄລິກ, ມີຄວາມເປັນໄປໄດ້ 0.98 ແລະ 0.93 ຕາມລໍາດັບ, ແລະສອງສາມຄໍາ "ຄືຊິ" ເຊັ່ນ:
ບໍ່ແມ່ນ (ຄວາມເປັນໄປໄດ້ 0.14). ໄດ້ U4 ຄໍາທີ່ມີຄວາມເປັນໄປໄດ້ 0.85 ແມ່ນຕົວຈິງແລ້ວເປັນຄໍາທີ່ໃຊ້ໄດ້
ເປັນຕົວແທນຂອງຄໍາສັບ 4 ຕົວອັກສອນທັງຫມົດໃນຕົວພິມໃຫຍ່ - ບາງສິ່ງບາງຢ່າງທີ່ spammers ມັກ.
ໄດ້ ໄຟລ໌ແນບ: line ສະຫຼຸບບາງຂໍ້ມູນກ່ຽວກັບໄຟລ໌ແນບ MIME ສໍາລັບຂໍ້ຄວາມນີ້.
ທີ່ນີ້, ພວກເຮົາມີເອກະສານຄັດຕິດຂອງປະເພດ ແອັບພລິເຄຊັນ/octect-stream, ຊື່ເອກະສານ Guangwen4.zip,
ແລະຊຸດຕົວອັກສອນ GB2312 (ການເຂົ້າລະຫັດພາສາຈີນ).
ໄດ້ ໄຟ: ເສັ້ນສະແດງໄຟລ໌ທີ່ກໍາລັງຖືກທົດສອບ.
ປົກກະຕິແລ້ວ, ໃນເວລາທີ່ແລ່ນ spamoracle ການທົດສອບ ຂໍ້ຄວາມດີ, ຂໍ້ຄວາມສ່ວນໃຫຍ່ຄວນຈະອອກມາດ້ວຍຕ່ໍາ
ຄະແນນ (0.2 ຫຼືຫນ້ອຍ), ແລະໃນເວລາທີ່ແລ່ນ spamoracle ການທົດສອບ ສະແປມ, ຂໍ້ຄວາມສ່ວນໃຫຍ່ຄວນຈະມາ
ອອກດ້ວຍຄະແນນສູງ (0.8 ຫຼືຫຼາຍກວ່ານັ້ນ). ຖ້າບໍ່ແມ່ນ, ຮ່າງກາຍຂອງເຈົ້າບໍ່ດີຫຼາຍ, ຫຼືບໍ່ດີ
ຈັດປະເພດເປັນ spam ແລະບໍ່ແມ່ນ spam. ເພື່ອເບິ່ງ outliers ຢ່າງໄວວາ, ທ່ານສາມາດຫຼຸດລົງໄດ້
ໄລຍະຫ່າງຂອງຄະແນນທີ່ສະຫຼຸບຂໍ້ຄວາມຖືກສະແດງ, ດັ່ງນີ້:
spamoracle ການທົດສອບ - ນາທີ 0.2 ຂໍ້ຄວາມດີ | ເພີ່ມເຕີມ
# ສະແດງໃຫ້ເຫັນ ພຽງແຕ່ ດີ ຈົດ ໝາຍ ກັບ ຄະແນນ >= 0.2
spamoracle ການທົດສອບ -ສູງສຸດ 0.8 ສະແປມ | ເພີ່ມເຕີມ
# ສະແດງໃຫ້ເຫັນ ພຽງແຕ່ ຂີ້ເຫຍື້ອ ຈົດ ໝາຍ ກັບ ຄະແນນ <= 0.8
ໃນປັດຈຸບັນ, ສໍາລັບການທົດສອບທີ່ທ້າທາຍຫຼາຍ, ເອົາກ່ອງຈົດຫມາຍທີ່ມີອີເມວທີ່ບໍ່ມີການກັ່ນຕອງ, ເຊັ່ນ: a.
ປະສົມຂອງ spam ແລະອີເມລ໌ທີ່ຖືກຕ້ອງ, ແລະດໍາເນີນການຜ່ານ SpamOracle:
spamoracle ການທົດສອບ ກ່ອງຈົດໝາຍຂອງຂ້ອຍ | ຫນ້ອຍ
Marvel ທີ່ oracle ຮັບຮູ້ spam ຈາກສ່ວນທີ່ເຫຼືອໄດ້ດີເທົ່າໃດ! ຖ້າຜົນໄດ້ຮັບບໍ່ແມ່ນແນວນັ້ນ
ສິ່ງມະຫັດສະຈັນສໍາລັບທ່ານ, ຈົ່ງຈື່ໄວ້ວ່າ spams ທີ່ແນ່ນອນແມ່ນສັ້ນເກີນໄປທີ່ຈະຮັບຮູ້ (ບໍ່ແມ່ນ
ຄໍາສັບຕ່າງໆທີ່ສໍາຄັນພຽງພໍ). ນອກຈາກນັ້ນ, ບາງທີ corpus ຂອງທ່ານມີຂະຫນາດນ້ອຍເກີນໄປ, ຫຼືບໍ່ດີ
ຈັດປະເພດ...
MARKING ແລະ ການຍື່ນ ກຳ ລັງມາ E-MAIL
ເມື່ອຖານຂໍ້ມູນຖືກສ້າງຂຶ້ນ, ທ່ານພ້ອມທີ່ຈະດໍາເນີນການອີເມລ໌ທີ່ເຂົ້າມາໂດຍຜ່ານ SpamOracle. ໄດ້
ຄໍາສັ່ງ spamoracle ເຄື່ອງຫມາຍ ອ່ານອີເມລອັນໜຶ່ງຈາກການປ້ອນຂໍ້ມູນມາດຕະຖານ, ແລະສຳເນົາມັນໃຫ້ເປັນມາດຕະຖານ
ຜົນຜະລິດ, ດ້ວຍການໃສ່ຫົວສອງຫົວ: X-Spam: ແລະ ໄຟລ໌ແນບ X:. ໄດ້ X-Spam: header ມີຫນຶ່ງ
ຮູບແບບຕໍ່ໄປນີ້:
X-Spam: ແມ່ນ; ຄະແນນ; ລາຍລະອຽດ
or
X-Spam: ບໍ່; ຄະແນນ; ລາຍລະອຽດ
or
X-Spam: ບໍ່ຮູ້ຈັກ; ຄະແນນ; ລາຍລະອຽດ
ໄດ້ ຄະແນນ ແລະ ລາຍລະອຽດ ດັ່ງທີ່ອະທິບາຍໄວ້ spamoracle ການທົດສອບ.
ໄດ້ yes/no/ຮູ້ຈັກ tag ສັງເຄາະຜົນຂອງການວິເຄາະ: yes ຫມາຍຄວາມວ່າຄະແນນ
ແມ່ນ >= 0.8 ແລະຢ່າງຫນ້ອຍ 5 ຄໍາທີ່ຫນ້າສົນໃຈໄດ້ຖືກພົບເຫັນ; no ຫມາຍຄວາມວ່າຄະແນນແມ່ນ <= 0.2
ແລະຢ່າງຫນ້ອຍ 5 ຄໍາທີ່ຫນ້າສົນໃຈໄດ້ຖືກພົບເຫັນ; ຮູ້ຈັກ ຖືກສົ່ງຄືນຖ້າບໍ່ດັ່ງນັ້ນ. ໄດ້ ຮູ້ຈັກ
ກໍລະນີໂດຍທົ່ວໄປແມ່ນເກີດຂຶ້ນສໍາລັບຂໍ້ຄວາມສັ້ນທີ່ສຸດ, ທີ່ບໍ່ມີຄໍາສັບທີ່ຫນ້າສົນໃຈພຽງພໍ
ພົບເຫັນ.
ໄດ້ ໄຟລ໌ແນບ X: header ປະກອບດ້ວຍຂໍ້ມູນດຽວກັນກັບ ໄຟລ໌ແນບ: ຜົນຜະລິດຂອງ
spamoracle ການທົດສອບ, ນັ້ນແມ່ນ, ສະຫຼຸບຂອງໄຟລ໌ແນບຂໍ້ຄວາມ.
ເພື່ອປະມວນຜົນອັດຕະໂນມັດທີ່ເຂົ້າມາຂອງທ່ານຜ່ານ SpamOracle ແລະປະຕິບັດຕາມຜົນໄດ້ຮັບ
ຂອງການວິເຄາະ, ພຽງແຕ່ໃສ່ "ສູດ" ຕໍ່ໄປນີ້ໃນໄຟລ໌ ~/.procmailrc:
:0fw
| /usr/local/bin/spamoracle ເຄື່ອງຫມາຍ
:0
* ^X-Spam: ແມ່ນ;
ກ່ອງຂີ້ເຫຍື້ອ
ຄໍາສັ່ງ cryptic ເຫຼົ່ານີ້ຫມາຍຄວາມວ່າແນວໃດ:
- ດໍາເນີນການທຸກເມລໂດຍຜ່ານການ spamoracle ເຄື່ອງຫມາຍ ຄໍາສັ່ງ. (ຖ້າ spamoracle ບໍ່ໄດ້ຕິດຕັ້ງຢູ່ໃນ
/ usr / local / bin, ປັບເສັ້ນທາງຕາມຄວາມຈໍາເປັນ.) ອັນນີ້ເພີ່ມສອງຫົວໃສ່ຂໍ້ຄວາມ: X-
ສະແປມ: ແລະ ໄຟລ໌ແນບ X:, ອະທິບາຍຜົນໄດ້ຮັບຂອງການວິເຄາະ spam ແລະໄຟລ໌ແນບ
ການວິເຄາະ.
- ຖ້າຫາກວ່າພວກເຮົາມີ X-Spam: yes header, ສົ່ງຂໍ້ຄວາມໄປຫາໄຟລ໌ ກ່ອງຂີ້ເຫຍື້ອ ແທນທີ່ຈະ
ກ່ອງຈົດໝາຍປົກກະຕິຂອງເຈົ້າ. ສົມມຸດວ່າ, ເຈົ້າຈະອ່ານ ກ່ອງຂີ້ເຫຍື້ອ ບາງຄັ້ງຄາວ, ແຕ່ໜ້ອຍລົງ
ກ່ວາກ່ອງຈົດຫມາຍປົກກະຕິຂອງທ່ານ. ຜູ້ໃຊ້ Daring ສາມາດວາງ / dev / null ແທນທີ່ ກ່ອງຂີ້ເຫຍື້ອ ພຽງແຕ່
ຖິ້ມຂໍ້ຄວາມອອກໄປ, ແຕ່ກະລຸນາຢ່າເຮັດແນວນັ້ນຈົນກວ່າເຈົ້າຈະໃຊ້ SpamOracle ເປັນໄລຍະໜຶ່ງ
ແລະມີຄວາມສຸກກັບຜົນໄດ້ຮັບ. ອັດຕາບວກທີ່ບໍ່ຖືກຕ້ອງຂອງ SpamOracle (ເຊັ່ນ: ອີເມວທີ່ຖືກຕ້ອງ
ຖືກຈັດປະເພດເປັນ spam) ແມ່ນຕໍ່າ (0.1%) ແຕ່ບໍ່ແມ່ນ null. ດັ່ງນັ້ນ, ດີກວ່າບັນທຶກ spams ທີ່ສົມມຸດຕິຖານ
ບາງບ່ອນ, ແລະສະແກນພວກມັນຢ່າງວ່ອງໄວເປັນບາງຄັ້ງຄາວ.
ຖ້າທ່ານຕ້ອງການທີ່ຈະເພີດເພີນກັບການກັ່ນຕອງທີ່ອີງໃສ່ໄຟລ໌ແນບເລັກນ້ອຍ, ນີ້ແມ່ນບາງກົດລະບຽບ procmail
ສໍາລັບວ່າ:
:0
* ^X-Attachments:.*name=".*\.(pif|scr|exe|bat|com)"
ກ່ອງຂີ້ເຫຍື້ອ
:0
* ^X-Attachments:.*type="audio/(x-wav|x-midi)
ກ່ອງຂີ້ເຫຍື້ອ
:0
* ^(ປະເພດເນື້ອຫາ:.*|X-Attachments:.*cset="|^Subject:.*=\?)(ks_c|gb2312|iso-2|euc-|big5|windows-1251)
ກ່ອງຂີ້ເຫຍື້ອ
ກົດລະບຽບທໍາອິດປະຕິບັດເປັນ spam ທຸກເມລທີ່ມີ Windows executable ເປັນໄຟລ໌ແນບ.
ໂດຍທົ່ວໄປແລ້ວ ອີເມວເຫຼົ່ານີ້ຖືກສົ່ງໂດຍໄວຣັສ. ກົດລະບຽບທີສອງເຮັດເຊັ່ນດຽວກັນກັບໄຟລ໌ແນບ
ປະເພດ x-wav ຫຼື x-midi. ປົກກະຕິຂ້ອຍບໍ່ເຄີຍໄດ້ຮັບເພງທາງອີເມລ, ແນວໃດກໍ່ຕາມ, ຄວາມນິຍົມບາງຢ່າງ
ໄວຣັສອີເມລເບິ່ງຄືວ່າມັກປະເພດຂອງໄຟລ໌ແນບເຫຼົ່ານີ້. ກົດລະບຽບທີສາມຖືວ່າເປັນ spam ທຸກໆ
mail ທີ່ໃຊ້ການເຂົ້າລະຫັດຕົວອັກສອນທີ່ສອດຄ້ອງກັບພາສາເກົາຫຼີ, ຈີນ, ຍີ່ປຸ່ນ, ແລະ
ຊິລິລິກ.
ການອັບເດດ ການ DATABASE
ໃນເວລາໃດກໍ່ຕາມ, ທ່ານສາມາດເພີ່ມ spams ທີ່ຮູ້ຈັກຫຼາຍຫຼືຂໍ້ຄວາມທີ່ຖືກຕ້ອງຕາມກົດຫມາຍທີ່ຮູ້ຈັກກັບຖານຂໍ້ມູນໂດຍ
ການນໍາໃຊ້ spamoracle ເພີ່ມ ຄໍາສັ່ງ.
ຕົວຢ່າງ, ຖ້າທ່ານພົບຂໍ້ຄວາມຂີ້ເຫຍື້ອທີ່ບໍ່ໄດ້ຖືກຈັດປະເພດເຊັ່ນນັ້ນ, ໃຫ້ດໍາເນີນການຜ່ານ
spamoracle ເພີ່ມ - ຂີ້ເຫຍື້ອ, ດັ່ງນັ້ນ SpamOracle ສາມາດຮຽນຮູ້ຈາກຄວາມຜິດພາດຂອງມັນ. (ໂດຍບໍ່ມີການເພີ່ມເຕີມ
arguments, ຄໍາສັ່ງນີ້ຈະອ່ານຂໍ້ຄວາມດຽວຈາກການປ້ອນມາດຕະຖານແລະບັນທຶກມັນເປັນ
spam.) ພາຍໃຕ້ ສັບປະດາ(1) ສໍາລັບການຍົກຕົວຢ່າງ, ພຽງແຕ່ເນັ້ນໃສ່ຂໍ້ຄວາມຂີ້ເຫຍື້ອແລະພິມ
| spamoracle ເພີ່ມ - ຂີ້ເຫຍື້ອ
ເຊັ່ນດຽວກັນ, ຖ້າທ່ານຊອກຫາຂໍ້ຄວາມທີ່ຖືກຕ້ອງໃນຂະນະທີ່ກວດເບິ່ງກ່ອງ spam ຂອງທ່ານ, ດໍາເນີນການມັນຜ່ານ
spamoracle ເພີ່ມ - ດີ.
ທາງເລືອກອື່ນແມ່ນການເກັບກໍາ spams ທີ່ຮູ້ຈັກຫຼາຍຫຼືຂໍ້ຄວາມທີ່ດີທີ່ຮູ້ຈັກຫຼາຍເຂົ້າໄປໃນກ່ອງຈົດຫມາຍ
ໄຟລ໌, ແລະຄັ້ງດຽວໃນຂະນະທີ່ເຮັດ spamoracle ເພີ່ມ - ດີ new_good_mails or spamoracle ເພີ່ມ - ຂີ້ເຫຍື້ອ
new_spam_mails.
ກຳລັງສອບຖາມ ການ DATABASE
ສໍາລັບ edition ແລະຄວາມບັນເທີງຂອງທ່ານ, ເນື້ອໃນຂອງຖານຂໍ້ມູນສາມາດໄດ້ຮັບການສອບຖາມໂດຍ
ການສະແດງອອກເປັນປົກກະຕິ. ໄດ້ spamoracle ບັນຊີລາຍຊື່ regexp ຄໍາສັ່ງລາຍຊື່ຄໍາທັງຫມົດໃນຖານຂໍ້ມູນ
ການແຂ່ງຂັນນັ້ນ regexp (ການສະແດງອອກປົກກະຕິແບບ Emacs), ພ້ອມກັບຈໍານວນຂອງ
ປະກົດຢູ່ໃນ spam mail ແລະໃນ mail ທີ່ດີ. ຕົວຢ່າງ:
spamoracle ບັນຊີລາຍຊື່ '.*' # ສະແດງໃຫ້ເຫັນ ທັງຫມົດ ຄໍາເວົ້າ -- ຂະຫນາດໃຫຍ່ ລາຍຊື່!
spamoracle ບັນຊີລາຍຊື່ 'ເພດ.*'
spamoracle ບັນຊີລາຍຊື່ 'linux.*'
DATABASE ຄວາມ ສຳ ເລັດ
ຖານຂໍ້ມູນທີ່ໃຊ້ໂດຍ SpamOracle ແມ່ນຖືກເກັບໄວ້ໃນຮູບແບບຄູ່ທີ່ຫນາແຫນ້ນແລະບໍ່ແມ່ນມະນຸດ
ອ່ານໄດ້. ຍິ່ງໄປກວ່ານັ້ນ, ຮູບແບບນີ້ອາດຈະມີການປ່ຽນແປງໃນສະບັບຕໍ່ມາຂອງ SpamOracle. ເຖິງ
ອໍານວຍຄວາມສະດວກໃນການສໍາຮອງແລະການຍົກລະດັບ, ເນື້ອໃນຂອງຖານຂໍ້ມູນຍັງສາມາດ manipulated ໃນ a
Portable, ຮູບແບບຂໍ້ຄວາມ.
ໄດ້ spamoracle ສໍາຮອງຂໍ້ມູນ ຄໍາສັ່ງ dumps ເນື້ອໃນຂອງຖານຂໍ້ມູນກັບຜົນຜະລິດມາດຕະຖານ, ໃນ a
ຮູບແບບຕົວໜັງສື, ແບບພົກພາ.
ໄດ້ spamoracle ການຟື້ນຟູ ຄໍາສັ່ງອ່ານ dump ດັ່ງກ່າວຈາກການປ້ອນມາດຕະຖານແລະສ້າງໃຫມ່
ຖານຂໍ້ມູນທີ່ມີຂໍ້ມູນນີ້.
ຂັ້ນຕອນການແນະນໍາສໍາລັບການຍົກລະດັບກັບສະບັບໃຫມ່ຂອງ SpamOracle ແມ່ນ:
# ກ່ອນທີ່ຈະ ໄດ້ ຍົກລະດັບ:
spamoracle ສໍາຮອງຂໍ້ມູນ > ໄຟລ໌ສຳຮອງ
# ການຍົກລະດັບ SpamOracle
# ການຟື້ນຟູ ໄດ້ ຖານຂໍ້ມູນ
spamoracle ການຟື້ນຟູ < ໄຟລ໌ສຳຮອງ
ການຕັ້ງຄ່າ ການຍື່ນ PARAMETERS
ຫຼາຍຕົວກໍານົດການທີ່ຄວບຄຸມການຈັດປະເພດຂໍ້ຄວາມສາມາດຖືກຕັ້ງຄ່າຜ່ານ a
ໄຟລ໌ການຕັ້ງຄ່າ. ໂດຍຄ່າເລີ່ມຕົ້ນ, ການຕັ້ງຄ່າຈະຖືກອ່ານຈາກໄຟລ໌ .spamoracle.conf
ຢູ່ໃນໄດເລກະທໍລີເຮືອນຂອງຜູ້ໃຊ້. ໄຟລ໌ການຕັ້ງຄ່າທີ່ແຕກຕ່າງກັນສາມາດໄດ້ຮັບການລະບຸໄວ້ໃນ
ເສັ້ນຄໍາສັ່ງໂດຍໃຊ້ -ການຕັ້ງຄ່າ ຕົວເລືອກ: spamoracle -ການຕັ້ງຄ່າ myconfigfile ...
ບັນຊີລາຍຊື່ຂອງຕົວກໍານົດການກໍານົດແລະຮູບແບບຂອງໄຟລ໌ການຕັ້ງຄ່າໄດ້ຖືກອະທິບາຍ
in spamoracle.conf(5).
ຕົວກໍານົດການທັງຫມົດມີຄ່າເລີ່ມຕົ້ນທີ່ສົມເຫດສົມຜົນ, ແຕ່ທ່ານສາມາດພະຍາຍາມປັບປຸງຄຸນນະພາບຂອງ
ການຈັດປະເພດເພີ່ມເຕີມໂດຍການປັບໃຫ້ເຂົາເຈົ້າ. ເພື່ອກໍານົດຜົນກະທົບຂອງການປ່ຽນແປງຂອງທ່ານ, ໃຊ້
ບໍ່ວ່າຈະ ການທົດສອບ or ລັດ ຄໍາສັ່ງທີ່ຈະ spamoracle. ໄດ້ spamoracle ລັດ ຄໍາສັ່ງພິມຫນຶ່ງ -
ສະຫຼຸບສັງລວມຂອງຈໍານວນຂໍ້ຄວາມ spam, ບໍ່ແມ່ນ spam, ແລະບໍ່ຮູ້ພົບຢູ່ໃນກ່ອງຈົດຫມາຍ
ໃຫ້ເປັນການໂຕ້ຖຽງ.
ເຕັກນິກ DETAILS
ແນວຄວາມຄິດຂອງ SpamOracle ຂອງ "ຄໍາສັບ" ແມ່ນໄລຍະໃດຫນຶ່ງຂອງ 3 ຫາ 12 ຂອງຕົວອັກສອນດັ່ງຕໍ່ໄປນີ້: ຕົວອັກສອນ,
ວົງຢືມດຽວ, ແລະ dashes (-). ຖ້າສະຫນັບສະຫນູນພາສາເອີຣົບທີ່ບໍ່ແມ່ນພາສາອັງກິດໄດ້ຖືກລວບລວມ
ໃນ, ຕົວອັກສອນຄໍາຍັງປະກອບມີຕົວອັກສອນສໍານຽງທີ່ກ່ຽວຂ້ອງສໍາລັບພາສາໃນ
ຄໍາຖາມ. ຄໍາສັບຕ່າງໆທັງຫມົດແມ່ນໄດ້ຖືກແຜນທີ່ເປັນຕົວພິມນ້ອຍ, ແລະຕົວອັກສອນສໍານຽງຖືກແຜນທີ່ກັບ
ຕົວອັກສອນທີ່ບໍ່ແມ່ນສຳນຽງທີ່ສອດຄ້ອງກັນ.
ໄລຍະ 3 ຫາ 12 ຂອງຕົວອັກສອນຕໍ່ໄປນີ້ຍັງປະກອບເປັນຄໍາ: ຕົວເລກ, ຈຸດ,
ເຄື່ອງໝາຍຈຸດ, ແລະເງິນໂດລາ, ເອີໂຣ ແລະເຄື່ອງໝາຍສ່ວນຮ້ອຍ.
ນອກຈາກນັ້ນ, ຕົວອັກສອນຕົວພິມໃຫຍ່ສາມຕົວ ຫຼືຫຼາຍກວ່ານັ້ນຈະສ້າງເປັນຄຳທີ່ຫຼອກລວງ Un ບ່ອນທີ່ n
ແມ່ນຄວາມຍາວຂອງການແລ່ນ. ເຊັ່ນດຽວກັນ, ການແລ່ນສາມຕົວອັກສອນທີ່ບໍ່ແມ່ນ ASCII ຫຼືຫຼາຍກວ່ານັ້ນ (ລະຫັດ >=
128) ສ້າງ pseudo ຄໍາ Wn ບ່ອນທີ່ n ແມ່ນຄວາມຍາວຂອງການແລ່ນ.
ສໍາລັບຕົວຢ່າງ, ຂໍ້ຄວາມຕໍ່ໄປນີ້:
SUMMER in ພາສາອັງກິດ is ລາຍລັກອັກສອນ "ເທິ" in ພາສາຝຣັ່ງ
ຖືກປຸງແຕ່ງເປັນຄໍາຕໍ່ໄປນີ້, ສົມມຸດວ່າການສະຫນັບສະຫນູນຂອງຝຣັ່ງຖືກເລືອກຢູ່ໃນການລວບລວມ.
ເວລາ:
U5 ລະດູຮ້ອນ ພາສາອັງກິດ ລາຍລັກອັກສອນ ete ພາສາຝຣັ່ງ W3
ແລະຖ້າການສະຫນັບສະຫນູນຂອງຝຣັ່ງບໍ່ໄດ້ຖືກເລືອກ:
U5 ລະດູຮ້ອນ ພາສາອັງກິດ ລາຍລັກອັກສອນ ພາສາຝຣັ່ງ W3
ເພື່ອເບິ່ງຄໍາທີ່ຖືກສະກັດອອກຈາກຂໍ້ຄວາມ, ໃຫ້ອອກ spamoracle ຄໍາເວົ້າ ຄໍາສັ່ງ.
ມັນອ່ານຂໍ້ຄວາມດຽວຈາກການປ້ອນຂໍ້ມູນມາດຕະຖານ, ຫຼືຂໍ້ຄວາມທັງໝົດຈາກກ່ອງຈົດໝາຍ
ໄຟລ໌ທີ່ໃຫ້ເປັນການໂຕ້ຖຽງ, decomposes ຂໍ້ຄວາມເຂົ້າໄປໃນຄໍາສັບຕ່າງໆແລະພິມຄໍາສັບຕ່າງໆ.
ມາດຕະຖານ ຫມາຍເຫດ
ໄຟລ໌ຖານຂໍ້ມູນສາມາດຖືກບີບອັດດ້ວຍ gzip(1) ເພື່ອຊ່ວຍປະຢັດຊ່ອງແຜ່ນ, ໃນຄ່າໃຊ້ຈ່າຍຂອງ
ຊ້າລົງ spamoracle ການດໍາເນີນງານ. ຖ້າໄຟລ໌ຖານຂໍ້ມູນທີ່ລະບຸໄວ້ກັບ -f ທາງເລືອກທີ່ມີ
ການຂະຫຍາຍ .gz, spamoracle ຈະອັດຕະໂນມັດ uncompress ມັນໃນເວລາທີ່ເລີ່ມຕົ້ນ, ແລະ re-compress ມັນ
ຫຼັງຈາກການປັບປຸງ.
ຖ້າເມລຂອງທ່ານຖືກເກັບໄວ້ໃນຮູບແບບ MH, ທ່ານອາດຈະແລ່ນເຂົ້າໄປໃນ "ເສັ້ນຄໍາສັ່ງຍາວເກີນໄປ" ຂໍ້ຜິດພາດໃນຂະນະທີ່
ພະຍາຍາມປະມວນຜົນຫຼາຍໄຟລ໌ຂະຫນາດນ້ອຍທີ່ມີ spamoracle ເພີ່ມ ຄໍາສັ່ງ, e.g. ໃນເວລາທີ່ເຮັດ
spamoracle ເພີ່ມ - ດີ ຮວບຮວມ /*/* - ຂີ້ເຫຍື້ອ ສະແປມ/*
ແທນທີ່ຈະ, ເຮັດບາງສິ່ງບາງຢ່າງເຊັ່ນ:
ຊອກຫາ ເອກະສານ -ປະເພດ f - ພິມ | xargs spamoracle ເພີ່ມ - ດີ
ຊອກຫາ ຂີ້ເຫຍື້ອ -ປະເພດ f - ພິມ | xargs spamoracle ເພີ່ມ - ຂີ້ເຫຍື້ອ
ໃຊ້ spamoracle ອອນໄລນ໌ໂດຍໃຊ້ບໍລິການ onworks.net