spamoracle - ອອນລາຍໃນຄລາວ

ນີ້ແມ່ນ spamoracle ຄໍາສັ່ງທີ່ສາມາດດໍາເນີນການໄດ້ໃນ OnWorks ຜູ້ໃຫ້ບໍລິການໂຮດຕິ້ງຟຣີໂດຍໃຊ້ຫນຶ່ງໃນຫຼາຍສະຖານີເຮັດວຽກອອນໄລນ໌ຂອງພວກເຮົາເຊັ່ນ Ubuntu Online, Fedora Online, Windows online emulator ຫຼື MAC OS online emulator

ໂຄງການ:

NAME


spamoracle - ເຄື່ອງມືການຈັດປະເພດ spam

ສະຫຼຸບສັງລວມ


spamoracle [-ການຕັ້ງຄ່າ conf] [-f ຖານຂໍ້ມູນ] ເຄື່ອງຫມາຍ [ mailbox ... ]

spamoracle [-ການຕັ້ງຄ່າ conf] [-f ຖານຂໍ້ມູນ] ເພີ່ມ [-v] - ຂີ້ເຫຍື້ອ ກ່ອງຂີ້ເຫຍື້ອ ... - ດີ ກ່ອງດີ ...

spamoracle [-ການຕັ້ງຄ່າ conf] [-f ຖານຂໍ້ມູນ] ການທົດສອບ [- ນາທີ ບັນຫາ] [-ສູງສຸດ ບັນຫາ] [ mailbox ... ]

spamoracle [-ການຕັ້ງຄ່າ conf] [-f ຖານຂໍ້ມູນ] ລັດ [ mailbox ... ]

spamoracle [-ການຕັ້ງຄ່າ conf] [-f ຖານຂໍ້ມູນ] ບັນຊີລາຍຊື່ regexp ...

spamoracle [-ການຕັ້ງຄ່າ conf] [-f ຖານຂໍ້ມູນ] ສໍາຮອງຂໍ້ມູນ > ໄຟລ໌ສຳຮອງ

spamoracle [-ການຕັ້ງຄ່າ conf] [-f ຖານຂໍ້ມູນ] ການຟື້ນຟູ < ໄຟລ໌ສຳຮອງ

spamoracle [-ການຕັ້ງຄ່າ conf] [-f ຖານຂໍ້ມູນ] ຄໍາເວົ້າ [ mailbox ... ]

ລາຍລະອຽດ


SpamOracle ເປັນ​ເຄື່ອງ​ມື​ທີ່​ຈະ​ຊ່ວຍ​ກວດ​ສອບ​ແລະ​ການ​ກັ່ນ​ຕອງ "spam​" ຫ່າງ​ໄກ (unsolicited e-commerce
mail). ມັນດໍາເນີນການໂດຍການວິເຄາະສະຖິຕິຂອງຄໍາທີ່ປາກົດຢູ່ໃນ e-mail,
ການປຽບທຽບຄວາມຖີ່ຂອງຄໍາສັບຕ່າງໆກັບຄໍາທີ່ພົບເຫັນຢູ່ໃນ corpus ທີ່ຜູ້ໃຊ້ສະຫນອງໃຫ້ຮູ້ຈັກ
spam ແລະຮູ້ຈັກອີເມລທີ່ຖືກຕ້ອງຕາມກົດຫມາຍ. ຂັ້ນຕອນການຈັດປະເພດແມ່ນອີງໃສ່ Bayes'
ສູດ, ແລະໄດ້ຖືກອະທິບາຍໄວ້ໃນເອກະສານຂອງ Paul Graham, A ແຜນການ ສໍາລັບການ ຂີ້ເຫຍື້ອ,
http://www.paulgraham.com/spam.html.

ໂຄງ​ການ​ນີ້​ໄດ້​ຖືກ​ອອກ​ແບບ​ເພື່ອ​ເຮັດ​ວຽກ​ຮ່ວມ​ກັບ​ procmail(1). ຜົນໄດ້ຮັບຂອງ
ການວິເຄາະແມ່ນຜົນຜະລິດເປັນສ່ວນຫົວຂໍ້ຄວາມເພີ່ມເຕີມ X-Spam: ປະຕິບັດຕາມໂດຍ yes, no or ຮູ້ຈັກ,
ບວກ​ກັບ​ລາຍ​ລະ​ອຽດ​ເພີ່ມ​ເຕີມ​. ກົດລະບຽບ procmail ສາມາດທົດສອບນີ້ X-Spam: header ແລະສົ່ງ
e-mail ກັບ mailbox ທີ່ເຫມາະສົມ.

ນອກຈາກນັ້ນ, SpamOracle ຍັງວິເຄາະໄຟລ໌ແນບ MIME, ສະກັດຂໍ້ມູນທີ່ກ່ຽວຂ້ອງ
ເຊັ່ນ: ປະເພດ MIME, ການເຂົ້າລະຫັດຕົວອັກສອນ ແລະຊື່ໄຟລ໌ທີ່ຕິດຄັດມາ, ແລະສະຫຼຸບພວກມັນເປັນ
ເພີ່ມເຕີມ ໄຟລ໌ແນບ X: ສ່ວນຫົວ. ນີ້ອະນຸຍາດໃຫ້ procmail ປະຕິເສດອີເມລ໌ໄດ້ຢ່າງງ່າຍດາຍ
ມີໄຟລ໌ແນບທີ່ໜ້າສົງໄສ, ເຊັ່ນ: Windows executables ທີ່ມັກຈະບົ່ງບອກເຖິງໄວຣັສ.

ສິ່ງທີ່ຕ້ອງມີ ແລະ ຂອບເຂດ ຈຳ ກັດ


ເພື່ອໃຊ້ SpamOracle, ເມລຂອງເຈົ້າຕ້ອງຖືກສົ່ງໄປຫາເຄື່ອງ Unix ທີ່ເຈົ້າມີແກະ
ບັນຊີ. ເຄື່ອງນີ້ຕ້ອງມີ procmail(1) (ເບິ່ງ http://www.procmail.org/) ຕິດ​ຕັ້ງ​.
ຂອງທ່ານ ~/.ຕໍ່ ໄຟລ໌ຕ້ອງຖືກຕັ້ງຄ່າເພື່ອແລ່ນອີເມລເຂົ້າມາທັງໝົດ procmail(1). ຖ້າ
ເຄື່ອງແມ່ຂ່າຍເມລຂອງທ່ານສະຫນັບສະຫນູນໂປໂຕຄອນ POP ຫຼື IMAP, ທ່ານຍັງສາມາດໃຊ້ໄດ້ fetchmail(1) ໄປ
ດຶງເອົາຈົດໝາຍຂອງເຈົ້າຈາກເຊີບເວີ ແລະສົ່ງໃຫ້ເຄື່ອງທ້ອງຖິ່ນຂອງເຈົ້າ.

ເພື່ອສະຫນອງ corpus ຂອງຂໍ້ຄວາມທີ່ SpamOracle "ຮຽນຮູ້", ເກັບຮັກສາໄວ້ປະມານ 1000.
ຕ້ອງການອີເມລ໌ຂອງເຈົ້າ. ການຈັດເກັບຕ້ອງຖືກແບ່ງອອກດ້ວຍຕົນເອງ ຫຼືເຄິ່ງອັດຕະໂນມັດ
spams ທີ່ຮູ້ຈັກແລະຂໍ້ຄວາມທີ່ດີທີ່ຮູ້ຈັກ. ຂໍ້ຄວາມທີ່ຖືກຈັດປະເພດບໍ່ຖືກຕ້ອງໃນ corpus (ເຊັ່ນ: spams
ເກັບໄວ້ຜິດພາດໃນບັນດາຂໍ້ຄວາມທີ່ດີ) ຈະຫຼຸດລົງປະສິດທິພາບຂອງ
ການຈັດປະເພດ. ການຈັດເກັບຕ້ອງຢູ່ໃນຮູບແບບ Unix mailbox, ຫຼືໃນ "ຂໍ້ຄວາມຫນຶ່ງຕໍ່ໄຟລ໌"
ຮູບແບບ (a la MH). ຮູບແບບອື່ນໆ, ເຊັ່ນ Emacs' Babyl, ແມ່ນບໍ່ຮອງຮັບ.

ແນວຄວາມຄິດຂອງ "ຄໍາສັບ" ທີ່ໃຊ້ໂດຍ SpamOracle ແມ່ນເລື່ອນໄປສູ່ພາສາເອີຣົບຕາເວັນຕົກ,
ເຊັ່ນ: ຊຸດຕົວອັກສອນ ISO Latin-1 ແລະ Latin-9. ການຊ່ວຍເຫຼືອເບື້ອງຕົ້ນສໍາລັບການເຂົ້າລະຫັດ JIS
ພາສາຍີ່ປຸ່ນສາມາດເລືອກໄດ້ໃນເວລາລວບລວມ. SpamOracle ຈະບໍ່ເຮັດວຽກດີຖ້າທ່ານໄດ້ຮັບ
ອີເມວທີ່ຖືກຕ້ອງຕາມກົດໝາຍຈຳນວນຫຼາຍທີ່ຂຽນໃນຊຸດຕົວອັກສອນອື່ນໆ ເຊັ່ນຊຸດພາສາຈີນ ຫຼືພາສາເກົາຫຼີ.

ຈຸດເລີ່ມຕົ້ນ


ເພື່ອສ້າງຖານຂໍ້ມູນຂອງຄວາມຖີ່ຂອງຄໍາສັບຈາກ corpus, ເຮັດ:

rm ~/.spamoracle.db
spamoracle ເພີ່ມ -v - ດີ ຂໍ້ຄວາມດີ - ຂີ້ເຫຍື້ອ ສະແປມ

ໂດຍຄ່າເລີ່ມຕົ້ນ, ຖານຂໍ້ມູນຈະຖືກເກັບໄວ້ໃນໄຟລ໌ .spamoracle.db ໃນ​ລະ​ບົບ​ເຮືອນ​ຂອງ​ທ່ານ​.
ນີ້ສາມາດ overriden ກັບ -f ຕົວເລືອກ: spamoracle -f ຖານຂໍ້ມູນຂອງຂ້ອຍ ເພີ່ມ ... ໄດ້ -v ທາງເລືອກ
ພິມຂໍ້ມູນຄວາມຄືບໜ້າໃນລະຫວ່າງການປະມວນຜົນຂອງ corpus.

ນີ້ສົມມຸດວ່າຂໍ້ຄວາມທີ່ດີ, ບໍ່ແມ່ນ spam ຈາກ corpus ຖືກເກັບໄວ້ໃນໄຟລ໌
ຂໍ້ຄວາມດີ, ແລະຂໍ້ຄວາມຂີ້ເຫຍື້ອທີ່ຮູ້ຈັກໃນໄຟລ໌ ສະແປມ. ທ່ານຍັງສາມາດດຶງເອົາ corpus ໄດ້
ຂໍ້​ຄວາມ​ຈາກ​ຫຼາຍ​ໄຟລ​໌​, ແລະ / ຫຼື​ປະ​ມວນ​ຜົນ​ໃຫ້​ເຂົາ​ເຈົ້າ​ໂດຍ​ຜ່ານ​ການ​ຮຽກ​ຮ້ອງ​ຈໍາ​ນວນ​ຫນຶ່ງ SpamOracle​:

spamoracle ເພີ່ມ - ດີ ຂໍ້ຄວາມດີ1 ... goodmailsN
spamoracle ເພີ່ມ - ຂີ້ເຫຍື້ອ spammails1 ... spammailsP

ທົດສອບ ການ DATABASE


ເພື່ອກວດເບິ່ງວ່າຖານຂໍ້ມູນຖືກສ້າງຂຶ້ນຢ່າງຖືກຕ້ອງ, ແລະເຮັດຄວາມຄຸ້ນເຄີຍກັບຕົວເອງ
ການວິເຄາະສະຖິຕິທີ່ດໍາເນີນໂດຍ SpamOracle, ເອີ້ນໂຫມດ "ການທົດສອບ" ໃນກ່ອງຈົດຫມາຍທີ່
ທ່ານ​ພຽງ​ແຕ່​ນໍາ​ໃຊ້​ສໍາ​ລັບ​ການ​ກໍ່​ສ້າງ corpus​:

spamoracle ການທົດສອບ ຂໍ້ຄວາມດີ | ເພີ່ມເຕີມ
spamoracle ການທົດສອບ ສະແປມ | ເພີ່ມເຕີມ

ສໍາລັບແຕ່ລະຂໍ້ຄວາມໃນກ່ອງຈົດຫມາຍທີ່ໃຫ້, ທ່ານຈະເຫັນສະຫຼຸບເຊັ່ນນີ້:

From: ບໂບ <midhack@ureach.com>
Subject: ການກວດສອບ ນີ້ ອອກ
Score: 1.00 -- 15
ລາຍລະອຽດ: ແກ້ໄຂ: 98 $$$$:98 ທ່ອງ​ເວັບ​: 98​ asp:95 ກົດ: 93 ສາຍ: 92
ທັນ​ທີ: 90 https:88 ອິນເຕີເນັດ: 87 www:86 U4:85 ບໍ່ແມ່ນ: 14 ເດືອນ: 81
com:75 ທ່ອງ​ເວັບ​: 75​
ໄຟລ໌ແນບ: cset="GB2312" type="application/octet-stream"
name="Guangwen4.zip"
ໄຟ: inbox/314

ສອງສາຍທໍາອິດແມ່ນພຽງແຕ່ From: ແລະ Subject: ຊ່ອງຂໍ້ມູນຂອງຂໍ້ຄວາມຕົ້ນສະບັບ.

ໄດ້ Score: ເສັ້ນສະຫຼຸບຜົນຂອງການວິເຄາະ. ຕົວເລກທໍາອິດ (ລະຫວ່າງ 0.0 ແລະ
1.0) ແມ່ນຄວາມເປັນໄປໄດ້ທີ່ຂໍ້ຄວາມຕົວຈິງແມ່ນ spam --- ຫຼື, ທຽບເທົ່າ, ລະດັບ.
ຄວາມຄ້າຍຄືກັນຂອງຂໍ້ຄວາມທີ່ມີຂໍ້ຄວາມ spam ໃນ corpus. ຕົວເລກທີສອງ (ນ
integer ລະ​ຫວ່າງ 0 ແລະ 15​) ແມ່ນ​ຈໍາ​ນວນ​ຂອງ "ຫນ້າ​ສົນ​ໃຈ​" ຄໍາ​ທີ່​ພົບ​ເຫັນ​ໃນ​ຂໍ້​ຄວາມ​.
ຄໍາ "ຫນ້າສົນໃຈ" ແມ່ນຄໍາທີ່ເກີດຂື້ນຢ່າງຫນ້ອຍ 5 ເທື່ອໃນ corpus. ໃນຕົວຢ່າງ,
ພວກເຮົາມີ 15 ຄໍາທີ່ຫນ້າສົນໃຈ (ສູງສຸດ) ແລະຄະແນນ 1.00, ຊີ້ໃຫ້ເຫັນ spam ກັບ
ຄວາມແນ່ນອນສູງ.

ໄດ້ ລາຍລະອຽດ: ເສັ້ນໃຫ້ຄໍາອະທິບາຍກ່ຽວກັບຄະແນນ. ມັນລາຍຊື່ 15 ທີ່ຫນ້າສົນໃຈຫຼາຍທີ່ສຸດ
ຄໍາທີ່ພົບເຫັນຢູ່ໃນຂໍ້ຄວາມ, ນັ້ນແມ່ນ, 15 ຄໍາທີ່ຫນ້າສົນໃຈທີ່ມີຄວາມເປັນໄປໄດ້ຂອງ
ການລະບຸ spam ແມ່ນຢູ່ໄກທີ່ສຸດຈາກ 0.5 ທີ່ເປັນກາງ. ແຕ່ລະຄໍາແມ່ນໃຫ້ກັບມັນ
ຄະແນນສ່ວນບຸກຄົນ, ຂຽນເປັນເປີເຊັນ (ລະຫວ່າງ 01 ແລະ 99) ແທນທີ່ຈະເປັນຄວາມເປັນໄປໄດ້
ເພື່ອຊ່ວຍປະຢັດພື້ນທີ່. ໃນທີ່ນີ້, ພວກເຮົາເຫັນຄໍາສັບ "spammish" ຫຼາຍເຊັ່ນ: $$$$ or
ຄລິກ, ມີຄວາມເປັນໄປໄດ້ 0.98 ແລະ 0.93 ຕາມລໍາດັບ, ແລະສອງສາມຄໍາ "ຄືຊິ" ເຊັ່ນ:
ບໍ່ແມ່ນ (ຄວາມເປັນໄປໄດ້ 0.14). ໄດ້ U4 ຄໍາທີ່ມີຄວາມເປັນໄປໄດ້ 0.85 ແມ່ນຕົວຈິງແລ້ວເປັນຄໍາທີ່ໃຊ້ໄດ້
ເປັນຕົວແທນຂອງຄໍາສັບ 4 ຕົວອັກສອນທັງຫມົດໃນຕົວພິມໃຫຍ່ - ບາງສິ່ງບາງຢ່າງທີ່ spammers ມັກ.

ໄດ້ ໄຟລ໌ແນບ: line ສະຫຼຸບບາງຂໍ້ມູນກ່ຽວກັບໄຟລ໌ແນບ MIME ສໍາລັບຂໍ້ຄວາມນີ້.
ທີ່ນີ້, ພວກເຮົາມີເອກະສານຄັດຕິດຂອງປະເພດ ແອັບພລິເຄຊັນ/octect-stream, ຊື່​ເອ​ກະ​ສານ Guangwen4.zip,
ແລະຊຸດຕົວອັກສອນ GB2312 (ການເຂົ້າລະຫັດພາສາຈີນ).

ໄດ້ ໄຟ: ເສັ້ນສະແດງໄຟລ໌ທີ່ກໍາລັງຖືກທົດສອບ.

ປົກກະຕິແລ້ວ, ໃນເວລາທີ່ແລ່ນ spamoracle ການທົດສອບ ຂໍ້ຄວາມດີ, ຂໍ້ຄວາມສ່ວນໃຫຍ່ຄວນຈະອອກມາດ້ວຍຕ່ໍາ
ຄະແນນ (0.2 ຫຼືຫນ້ອຍ), ແລະໃນເວລາທີ່ແລ່ນ spamoracle ການທົດສອບ ສະແປມ, ຂໍ້ຄວາມສ່ວນໃຫຍ່ຄວນຈະມາ
ອອກດ້ວຍຄະແນນສູງ (0.8 ຫຼືຫຼາຍກວ່ານັ້ນ). ຖ້າບໍ່ແມ່ນ, ຮ່າງກາຍຂອງເຈົ້າບໍ່ດີຫຼາຍ, ຫຼືບໍ່ດີ
ຈັດປະເພດເປັນ spam ແລະບໍ່ແມ່ນ spam. ເພື່ອເບິ່ງ outliers ຢ່າງໄວວາ, ທ່ານສາມາດຫຼຸດລົງໄດ້
ໄລຍະຫ່າງຂອງຄະແນນທີ່ສະຫຼຸບຂໍ້ຄວາມຖືກສະແດງ, ດັ່ງນີ້:

spamoracle ການທົດສອບ - ນາທີ 0.2 ຂໍ້ຄວາມດີ | ເພີ່ມເຕີມ
# ສະແດງໃຫ້ເຫັນ ພຽງແຕ່ ດີ ຈົດ ໝາຍ ກັບ ຄະແນນ >= 0.2
spamoracle ການທົດສອບ -ສູງສຸດ 0.8 ສະແປມ | ເພີ່ມເຕີມ
# ສະແດງໃຫ້ເຫັນ ພຽງແຕ່ ຂີ້ເຫຍື້ອ ຈົດ ໝາຍ ກັບ ຄະແນນ <= 0.8

ໃນປັດຈຸບັນ, ສໍາລັບການທົດສອບທີ່ທ້າທາຍຫຼາຍ, ເອົາກ່ອງຈົດຫມາຍທີ່ມີອີເມວທີ່ບໍ່ມີການກັ່ນຕອງ, ເຊັ່ນ: a.
ປະສົມຂອງ spam ແລະອີເມລ໌ທີ່ຖືກຕ້ອງ, ແລະດໍາເນີນການຜ່ານ SpamOracle:

spamoracle ການທົດສອບ ກ່ອງຈົດໝາຍຂອງຂ້ອຍ | ຫນ້ອຍ

Marvel ທີ່ oracle ຮັບຮູ້ spam ຈາກສ່ວນທີ່ເຫຼືອໄດ້ດີເທົ່າໃດ! ຖ້າຜົນໄດ້ຮັບບໍ່ແມ່ນແນວນັ້ນ
ສິ່ງມະຫັດສະຈັນສໍາລັບທ່ານ, ຈົ່ງຈື່ໄວ້ວ່າ spams ທີ່ແນ່ນອນແມ່ນສັ້ນເກີນໄປທີ່ຈະຮັບຮູ້ (ບໍ່ແມ່ນ
ຄໍາ​ສັບ​ຕ່າງໆ​ທີ່​ສໍາ​ຄັນ​ພຽງ​ພໍ​)​. ນອກຈາກນັ້ນ, ບາງທີ corpus ຂອງທ່ານມີຂະຫນາດນ້ອຍເກີນໄປ, ຫຼືບໍ່ດີ
ຈັດປະເພດ...

MARKING ແລະ ການຍື່ນ ກຳ ລັງມາ E-MAIL


ເມື່ອຖານຂໍ້ມູນຖືກສ້າງຂຶ້ນ, ທ່ານພ້ອມທີ່ຈະດໍາເນີນການອີເມລ໌ທີ່ເຂົ້າມາໂດຍຜ່ານ SpamOracle. ໄດ້
ຄໍາສັ່ງ spamoracle ເຄື່ອງຫມາຍ ອ່ານອີເມລອັນໜຶ່ງຈາກການປ້ອນຂໍ້ມູນມາດຕະຖານ, ແລະສຳເນົາມັນໃຫ້ເປັນມາດຕະຖານ
ຜົນຜະລິດ, ດ້ວຍການໃສ່ຫົວສອງຫົວ: X-Spam: ແລະ ໄຟລ໌ແນບ X:. ໄດ້ X-Spam: header ມີຫນຶ່ງ
ຮູບແບບຕໍ່ໄປນີ້:

X-Spam: ແມ່ນ; ຄະແນນ; ລາຍລະອຽດ

or

X-Spam: ບໍ່; ຄະແນນ; ລາຍລະອຽດ

or

X-Spam: ບໍ່ຮູ້ຈັກ; ຄະແນນ; ລາຍລະອຽດ

ໄດ້ ຄະແນນ ແລະ ລາຍລະອຽດ ດັ່ງທີ່ອະທິບາຍໄວ້ spamoracle ການທົດສອບ.

ໄດ້ yes/no/ຮູ້ຈັກ tag ສັງເຄາະຜົນຂອງການວິເຄາະ: yes ຫມາຍຄວາມວ່າຄະແນນ
ແມ່ນ >= 0.8 ແລະຢ່າງຫນ້ອຍ 5 ຄໍາທີ່ຫນ້າສົນໃຈໄດ້ຖືກພົບເຫັນ; no ຫມາຍຄວາມວ່າຄະແນນແມ່ນ <= 0.2
ແລະຢ່າງຫນ້ອຍ 5 ຄໍາທີ່ຫນ້າສົນໃຈໄດ້ຖືກພົບເຫັນ; ຮູ້ຈັກ ຖືກສົ່ງຄືນຖ້າບໍ່ດັ່ງນັ້ນ. ໄດ້ ຮູ້ຈັກ
ກໍ​ລະ​ນີ​ໂດຍ​ທົ່ວ​ໄປ​ແມ່ນ​ເກີດ​ຂຶ້ນ​ສໍາ​ລັບ​ຂໍ້​ຄວາມ​ສັ້ນ​ທີ່​ສຸດ​, ທີ່​ບໍ່​ມີ​ຄໍາ​ສັບ​ທີ່​ຫນ້າ​ສົນ​ໃຈ​ພຽງ​ພໍ​
ພົບເຫັນ.

ໄດ້ ໄຟລ໌ແນບ X: header ປະ​ກອບ​ດ້ວຍ​ຂໍ້​ມູນ​ດຽວ​ກັນ​ກັບ​ ໄຟລ໌ແນບ: ຜົນຜະລິດຂອງ
spamoracle ການທົດສອບ, ນັ້ນແມ່ນ, ສະຫຼຸບຂອງໄຟລ໌ແນບຂໍ້ຄວາມ.

ເພື່ອປະມວນຜົນອັດຕະໂນມັດທີ່ເຂົ້າມາຂອງທ່ານຜ່ານ SpamOracle ແລະປະຕິບັດຕາມຜົນໄດ້ຮັບ
ຂອງການວິເຄາະ, ພຽງແຕ່ໃສ່ "ສູດ" ຕໍ່ໄປນີ້ໃນໄຟລ໌ ~/.procmailrc:

:0fw
| /usr/local/bin/spamoracle ເຄື່ອງຫມາຍ

:0
* ^X-Spam: ແມ່ນ;
ກ່ອງຂີ້ເຫຍື້ອ

ຄໍາສັ່ງ cryptic ເຫຼົ່ານີ້ຫມາຍຄວາມວ່າແນວໃດ:

- ດໍາ​ເນີນ​ການ​ທຸກ​ເມລ​ໂດຍ​ຜ່ານ​ການ​ spamoracle ເຄື່ອງຫມາຍ ຄໍາສັ່ງ. (ຖ້າ spamoracle ບໍ່ໄດ້ຕິດຕັ້ງຢູ່ໃນ
/ usr / local / bin, ປັບເສັ້ນທາງຕາມຄວາມຈໍາເປັນ.) ອັນນີ້ເພີ່ມສອງຫົວໃສ່ຂໍ້ຄວາມ: X-
ສະແປມ: ແລະ ໄຟລ໌ແນບ X:, ອະທິບາຍຜົນໄດ້ຮັບຂອງການວິເຄາະ spam ແລະໄຟລ໌ແນບ
ການວິເຄາະ.

- ຖ້າ​ຫາກ​ວ່າ​ພວກ​ເຮົາ​ມີ​ X-Spam: yes header, ສົ່ງຂໍ້ຄວາມໄປຫາໄຟລ໌ ກ່ອງຂີ້ເຫຍື້ອ ແທນທີ່ຈະ
ກ່ອງຈົດໝາຍປົກກະຕິຂອງເຈົ້າ. ສົມມຸດວ່າ, ເຈົ້າຈະອ່ານ ກ່ອງຂີ້ເຫຍື້ອ ບາງຄັ້ງຄາວ, ແຕ່ໜ້ອຍລົງ
ກ​່​ວາ​ກ່ອງ​ຈົດ​ຫມາຍ​ປົກ​ກະ​ຕິ​ຂອງ​ທ່ານ​. ຜູ້​ໃຊ້ Daring ສາ​ມາດ​ວາງ​ / dev / null ແທນ​ທີ່ ກ່ອງຂີ້ເຫຍື້ອ ພຽງແຕ່
ຖິ້ມຂໍ້ຄວາມອອກໄປ, ແຕ່ກະລຸນາຢ່າເຮັດແນວນັ້ນຈົນກວ່າເຈົ້າຈະໃຊ້ SpamOracle ເປັນໄລຍະໜຶ່ງ
ແລະມີຄວາມສຸກກັບຜົນໄດ້ຮັບ. ອັດຕາບວກທີ່ບໍ່ຖືກຕ້ອງຂອງ SpamOracle (ເຊັ່ນ: ອີເມວທີ່ຖືກຕ້ອງ
ຖືກຈັດປະເພດເປັນ spam) ແມ່ນຕໍ່າ (0.1%) ແຕ່ບໍ່ແມ່ນ null. ດັ່ງນັ້ນ, ດີກວ່າບັນທຶກ spams ທີ່ສົມມຸດຕິຖານ
ບາງບ່ອນ, ແລະສະແກນພວກມັນຢ່າງວ່ອງໄວເປັນບາງຄັ້ງຄາວ.

ຖ້າທ່ານຕ້ອງການທີ່ຈະເພີດເພີນກັບການກັ່ນຕອງທີ່ອີງໃສ່ໄຟລ໌ແນບເລັກນ້ອຍ, ນີ້ແມ່ນບາງກົດລະບຽບ procmail
ສໍາລັບວ່າ:

:0
* ^X-Attachments:.*name=".*\.(pif|scr|exe|bat|com)"
ກ່ອງຂີ້ເຫຍື້ອ

:0
* ^X-Attachments:.*type="audio/(x-wav|x-midi)
ກ່ອງຂີ້ເຫຍື້ອ

:0
* ^(ປະເພດເນື້ອຫາ:.*|X-Attachments:.*cset="|^Subject:.*=\?)(ks_c|gb2312|iso-2|euc-|big5|windows-1251)
ກ່ອງຂີ້ເຫຍື້ອ

ກົດ​ລະ​ບຽບ​ທໍາ​ອິດ​ປະ​ຕິ​ບັດ​ເປັນ spam ທຸກ​ເມລ​ທີ່​ມີ Windows executable ເປັນ​ໄຟລ​໌​ແນບ​.
ໂດຍທົ່ວໄປແລ້ວ ອີເມວເຫຼົ່ານີ້ຖືກສົ່ງໂດຍໄວຣັສ. ກົດລະບຽບທີສອງເຮັດເຊັ່ນດຽວກັນກັບໄຟລ໌ແນບ
ປະເພດ x-wav ຫຼື x-midi. ປົກກະຕິຂ້ອຍບໍ່ເຄີຍໄດ້ຮັບເພງທາງອີເມລ, ແນວໃດກໍ່ຕາມ, ຄວາມນິຍົມບາງຢ່າງ
ໄວຣັສອີເມລເບິ່ງຄືວ່າມັກປະເພດຂອງໄຟລ໌ແນບເຫຼົ່ານີ້. ກົດລະບຽບທີສາມຖືວ່າເປັນ spam ທຸກໆ
mail ທີ່ໃຊ້ການເຂົ້າລະຫັດຕົວອັກສອນທີ່ສອດຄ້ອງກັບພາສາເກົາຫຼີ, ຈີນ, ຍີ່ປຸ່ນ, ແລະ
ຊິລິລິກ.

ການອັບເດດ ການ DATABASE


ໃນເວລາໃດກໍ່ຕາມ, ທ່ານສາມາດເພີ່ມ spams ທີ່ຮູ້ຈັກຫຼາຍຫຼືຂໍ້ຄວາມທີ່ຖືກຕ້ອງຕາມກົດຫມາຍທີ່ຮູ້ຈັກກັບຖານຂໍ້ມູນໂດຍ
ການນໍາໃຊ້ spamoracle ເພີ່ມ ຄໍາສັ່ງ.

ຕົວຢ່າງ, ຖ້າທ່ານພົບຂໍ້ຄວາມຂີ້ເຫຍື້ອທີ່ບໍ່ໄດ້ຖືກຈັດປະເພດເຊັ່ນນັ້ນ, ໃຫ້ດໍາເນີນການຜ່ານ
spamoracle ເພີ່ມ - ຂີ້ເຫຍື້ອ, ດັ່ງນັ້ນ SpamOracle ສາມາດຮຽນຮູ້ຈາກຄວາມຜິດພາດຂອງມັນ. (ໂດຍບໍ່ມີການເພີ່ມເຕີມ
arguments, ຄໍາສັ່ງນີ້ຈະອ່ານຂໍ້ຄວາມດຽວຈາກການປ້ອນມາດຕະຖານແລະບັນທຶກມັນເປັນ
spam.) ພາຍໃຕ້ ສັບປະດາ(1) ສໍາລັບການຍົກຕົວຢ່າງ, ພຽງແຕ່ເນັ້ນໃສ່ຂໍ້ຄວາມຂີ້ເຫຍື້ອແລະພິມ

| spamoracle ເພີ່ມ - ຂີ້ເຫຍື້ອ

ເຊັ່ນດຽວກັນ, ຖ້າທ່ານຊອກຫາຂໍ້ຄວາມທີ່ຖືກຕ້ອງໃນຂະນະທີ່ກວດເບິ່ງກ່ອງ spam ຂອງທ່ານ, ດໍາເນີນການມັນຜ່ານ
spamoracle ເພີ່ມ - ດີ.

ທາງເລືອກອື່ນແມ່ນການເກັບກໍາ spams ທີ່ຮູ້ຈັກຫຼາຍຫຼືຂໍ້ຄວາມທີ່ດີທີ່ຮູ້ຈັກຫຼາຍເຂົ້າໄປໃນກ່ອງຈົດຫມາຍ
ໄຟລ​໌​, ແລະ​ຄັ້ງ​ດຽວ​ໃນ​ຂະ​ນະ​ທີ່​ເຮັດ​ spamoracle ເພີ່ມ - ດີ new_good_mails or spamoracle ເພີ່ມ - ຂີ້ເຫຍື້ອ
new_spam_mails.

ກຳລັງສອບຖາມ ການ DATABASE


ສໍາລັບ edition ແລະຄວາມບັນເທີງຂອງທ່ານ, ເນື້ອໃນຂອງຖານຂໍ້ມູນສາມາດໄດ້ຮັບການສອບຖາມໂດຍ
ການສະແດງອອກເປັນປົກກະຕິ. ໄດ້ spamoracle ບັນຊີລາຍຊື່ regexp ຄໍາສັ່ງລາຍຊື່ຄໍາທັງຫມົດໃນຖານຂໍ້ມູນ
ການແຂ່ງຂັນນັ້ນ regexp (ການສະແດງອອກປົກກະຕິແບບ Emacs), ພ້ອມກັບຈໍານວນຂອງ
ປະກົດຢູ່ໃນ spam mail ແລະໃນ mail ທີ່ດີ. ຕົວ​ຢ່າງ:

spamoracle ບັນຊີລາຍຊື່ '.*' # ສະແດງໃຫ້ເຫັນ ທັງຫມົດ ຄໍາເວົ້າ -- ຂະຫນາດໃຫຍ່ ລາຍຊື່!
spamoracle ບັນຊີລາຍຊື່ 'ເພດ.*'
spamoracle ບັນຊີລາຍຊື່ 'linux.*'

DATABASE ຄວາມ ສຳ ເລັດ


ຖານຂໍ້ມູນທີ່ໃຊ້ໂດຍ SpamOracle ແມ່ນຖືກເກັບໄວ້ໃນຮູບແບບຄູ່ທີ່ຫນາແຫນ້ນແລະບໍ່ແມ່ນມະນຸດ
ອ່ານໄດ້. ຍິ່ງໄປກວ່ານັ້ນ, ຮູບແບບນີ້ອາດຈະມີການປ່ຽນແປງໃນສະບັບຕໍ່ມາຂອງ SpamOracle. ເຖິງ
ອໍານວຍຄວາມສະດວກໃນການສໍາຮອງແລະການຍົກລະດັບ, ເນື້ອໃນຂອງຖານຂໍ້ມູນຍັງສາມາດ manipulated ໃນ a
Portable, ຮູບແບບຂໍ້ຄວາມ.

ໄດ້ spamoracle ສໍາຮອງຂໍ້ມູນ ຄໍາສັ່ງ dumps ເນື້ອໃນຂອງຖານຂໍ້ມູນກັບຜົນຜະລິດມາດຕະຖານ, ໃນ a
ຮູບແບບຕົວໜັງສື, ແບບພົກພາ.

ໄດ້ spamoracle ການຟື້ນຟູ ຄໍາສັ່ງອ່ານ dump ດັ່ງກ່າວຈາກການປ້ອນມາດຕະຖານແລະສ້າງໃຫມ່
ຖານຂໍ້ມູນທີ່ມີຂໍ້ມູນນີ້.

ຂັ້ນ​ຕອນ​ການ​ແນະ​ນໍາ​ສໍາ​ລັບ​ການ​ຍົກ​ລະ​ດັບ​ກັບ​ສະ​ບັບ​ໃຫມ່​ຂອງ SpamOracle ແມ່ນ​:

# ກ່ອນທີ່ຈະ ໄດ້ ຍົກລະດັບ:
spamoracle ສໍາຮອງຂໍ້ມູນ > ໄຟລ໌ສຳຮອງ
# ການຍົກລະດັບ SpamOracle
# ການຟື້ນຟູ ໄດ້ ຖານຂໍ້ມູນ
spamoracle ການຟື້ນຟູ < ໄຟລ໌ສຳຮອງ

ການຕັ້ງຄ່າ ການຍື່ນ PARAMETERS


ຫຼາຍຕົວກໍານົດການທີ່ຄວບຄຸມການຈັດປະເພດຂໍ້ຄວາມສາມາດຖືກຕັ້ງຄ່າຜ່ານ a
ໄຟລ໌ການຕັ້ງຄ່າ. ໂດຍຄ່າເລີ່ມຕົ້ນ, ການຕັ້ງຄ່າຈະຖືກອ່ານຈາກໄຟລ໌ .spamoracle.conf
ຢູ່ໃນໄດເລກະທໍລີເຮືອນຂອງຜູ້ໃຊ້. ໄຟລ໌ການຕັ້ງຄ່າທີ່ແຕກຕ່າງກັນສາມາດໄດ້ຮັບການລະບຸໄວ້ໃນ
ເສັ້ນຄໍາສັ່ງໂດຍໃຊ້ -ການຕັ້ງຄ່າ ຕົວເລືອກ: spamoracle -ການຕັ້ງຄ່າ myconfigfile ...

ບັນຊີລາຍຊື່ຂອງຕົວກໍານົດການກໍານົດແລະຮູບແບບຂອງໄຟລ໌ການຕັ້ງຄ່າໄດ້ຖືກອະທິບາຍ
in spamoracle.conf(5).

ຕົວກໍານົດການທັງຫມົດມີຄ່າເລີ່ມຕົ້ນທີ່ສົມເຫດສົມຜົນ, ແຕ່ທ່ານສາມາດພະຍາຍາມປັບປຸງຄຸນນະພາບຂອງ
ການຈັດປະເພດເພີ່ມເຕີມໂດຍການປັບໃຫ້ເຂົາເຈົ້າ. ເພື່ອກໍານົດຜົນກະທົບຂອງການປ່ຽນແປງຂອງທ່ານ, ໃຊ້
ບໍ່ວ່າຈະ ການທົດສອບ or ລັດ ຄໍາສັ່ງທີ່ຈະ spamoracle. ໄດ້ spamoracle ລັດ ຄໍາສັ່ງພິມຫນຶ່ງ -
ສະຫຼຸບສັງລວມຂອງຈໍານວນຂໍ້ຄວາມ spam, ບໍ່ແມ່ນ spam, ແລະບໍ່ຮູ້ພົບຢູ່ໃນກ່ອງຈົດຫມາຍ
ໃຫ້ເປັນການໂຕ້ຖຽງ.

ເຕັກນິກ DETAILS


ແນວຄວາມຄິດຂອງ SpamOracle ຂອງ "ຄໍາສັບ" ແມ່ນໄລຍະໃດຫນຶ່ງຂອງ 3 ຫາ 12 ຂອງຕົວອັກສອນດັ່ງຕໍ່ໄປນີ້: ຕົວອັກສອນ,
ວົງຢືມດຽວ, ແລະ dashes (-). ຖ້າສະຫນັບສະຫນູນພາສາເອີຣົບທີ່ບໍ່ແມ່ນພາສາອັງກິດໄດ້ຖືກລວບລວມ
ໃນ, ຕົວອັກສອນຄໍາຍັງປະກອບມີຕົວອັກສອນສໍານຽງທີ່ກ່ຽວຂ້ອງສໍາລັບພາສາໃນ
ຄໍາຖາມ. ຄໍາສັບຕ່າງໆທັງຫມົດແມ່ນໄດ້ຖືກແຜນທີ່ເປັນຕົວພິມນ້ອຍ, ແລະຕົວອັກສອນສໍານຽງຖືກແຜນທີ່ກັບ
ຕົວອັກສອນທີ່ບໍ່ແມ່ນສຳນຽງທີ່ສອດຄ້ອງກັນ.

ໄລຍະ 3 ຫາ 12 ຂອງຕົວອັກສອນຕໍ່ໄປນີ້ຍັງປະກອບເປັນຄໍາ: ຕົວເລກ, ຈຸດ,
ເຄື່ອງໝາຍຈຸດ, ແລະເງິນໂດລາ, ເອີໂຣ ແລະເຄື່ອງໝາຍສ່ວນຮ້ອຍ.

ນອກຈາກນັ້ນ, ຕົວອັກສອນຕົວພິມໃຫຍ່ສາມຕົວ ຫຼືຫຼາຍກວ່ານັ້ນຈະສ້າງເປັນຄຳທີ່ຫຼອກລວງ Un ບ່ອນທີ່ n
ແມ່ນຄວາມຍາວຂອງການແລ່ນ. ເຊັ່ນດຽວກັນ, ການແລ່ນສາມຕົວອັກສອນທີ່ບໍ່ແມ່ນ ASCII ຫຼືຫຼາຍກວ່ານັ້ນ (ລະຫັດ >=
128) ສ້າງ pseudo ຄໍາ Wn ບ່ອນທີ່ n ແມ່ນຄວາມຍາວຂອງການແລ່ນ.

ສໍາລັບຕົວຢ່າງ, ຂໍ້ຄວາມຕໍ່ໄປນີ້:

SUMMER in ພາສາອັງກິດ is ລາຍລັກອັກສອນ "ເທິ" in ພາສາຝຣັ່ງ

ຖືກປຸງແຕ່ງເປັນຄໍາຕໍ່ໄປນີ້, ສົມມຸດວ່າການສະຫນັບສະຫນູນຂອງຝຣັ່ງຖືກເລືອກຢູ່ໃນການລວບລວມ.
ເວລາ:

U5 ລະ​ດູ​ຮ້ອນ ພາສາອັງກິດ ລາຍລັກອັກສອນ ete ພາສາຝຣັ່ງ W3

ແລະຖ້າການສະຫນັບສະຫນູນຂອງຝຣັ່ງບໍ່ໄດ້ຖືກເລືອກ:

U5 ລະ​ດູ​ຮ້ອນ ພາສາອັງກິດ ລາຍລັກອັກສອນ ພາສາຝຣັ່ງ W3

ເພື່ອເບິ່ງຄໍາທີ່ຖືກສະກັດອອກຈາກຂໍ້ຄວາມ, ໃຫ້ອອກ spamoracle ຄໍາເວົ້າ ຄໍາສັ່ງ.
ມັນອ່ານຂໍ້ຄວາມດຽວຈາກການປ້ອນຂໍ້ມູນມາດຕະຖານ, ຫຼືຂໍ້ຄວາມທັງໝົດຈາກກ່ອງຈົດໝາຍ
ໄຟລ໌ທີ່ໃຫ້ເປັນການໂຕ້ຖຽງ, decomposes ຂໍ້ຄວາມເຂົ້າໄປໃນຄໍາສັບຕ່າງໆແລະພິມຄໍາສັບຕ່າງໆ.

ມາດຕະຖານ ຫມາຍເຫດ


ໄຟລ໌ຖານຂໍ້ມູນສາມາດຖືກບີບອັດດ້ວຍ gzip(1​) ເພື່ອ​ຊ່ວຍ​ປະ​ຢັດ​ຊ່ອງ​ແຜ່ນ​, ໃນ​ຄ່າ​ໃຊ້​ຈ່າຍ​ຂອງ​
ຊ້າລົງ spamoracle ການດໍາເນີນງານ. ຖ້າໄຟລ໌ຖານຂໍ້ມູນທີ່ລະບຸໄວ້ກັບ -f ທາງ​ເລືອກ​ທີ່​ມີ​
ການຂະຫຍາຍ .gz, spamoracle ຈະ​ອັດ​ຕະ​ໂນ​ມັດ uncompress ມັນ​ໃນ​ເວ​ລາ​ທີ່​ເລີ່ມ​ຕົ້ນ​, ແລະ re-compress ມັນ​
ຫຼັງ​ຈາກ​ການ​ປັບ​ປຸງ​.

ຖ້າເມລຂອງທ່ານຖືກເກັບໄວ້ໃນຮູບແບບ MH, ທ່ານອາດຈະແລ່ນເຂົ້າໄປໃນ "ເສັ້ນຄໍາສັ່ງຍາວເກີນໄປ" ຂໍ້ຜິດພາດໃນຂະນະທີ່
ພະຍາຍາມປະມວນຜົນຫຼາຍໄຟລ໌ຂະຫນາດນ້ອຍທີ່ມີ spamoracle ເພີ່ມ ຄໍາສັ່ງ, e.g. ໃນເວລາທີ່ເຮັດ
spamoracle ເພີ່ມ - ດີ ຮວບຮວມ /*/* - ຂີ້ເຫຍື້ອ ສະແປມ/*
ແທນທີ່ຈະ, ເຮັດບາງສິ່ງບາງຢ່າງເຊັ່ນ:
ຊອກຫາ ເອກະສານ -ປະເພດ f - ພິມ | xargs spamoracle ເພີ່ມ - ດີ
ຊອກຫາ ຂີ້ເຫຍື້ອ -ປະເພດ f - ພິມ | xargs spamoracle ເພີ່ມ - ຂີ້ເຫຍື້ອ

ໃຊ້ spamoracle ອອນໄລນ໌ໂດຍໃຊ້ບໍລິການ onworks.net



ລ່າສຸດ Linux ແລະ Windows ໂຄງການອອນໄລນ໌