هذا هو أمر spamoracle الذي يمكن تشغيله في موفر الاستضافة المجاني OnWorks باستخدام إحدى محطات العمل المجانية المتعددة عبر الإنترنت مثل Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت
برنامج:
اسم
spamoracle - أداة لتصنيف البريد العشوائي
موجز
com.spamoracle [- التكوين أسيوط] [-f قاعدة بيانات] علامة [ صندوق البريد ]
com.spamoracle [- التكوين أسيوط] [-f قاعدة بيانات] تضيف [-v] -رسائل إلكترونية مزعجة صندوق البريد المزعج -جيد صندوق الخير
com.spamoracle [- التكوين أسيوط] [-f قاعدة بيانات] تجربه بالعربي [-دقائق غالبا] [-الأعلى غالبا] [ صندوق البريد ]
com.spamoracle [- التكوين أسيوط] [-f قاعدة بيانات] القانون الأساسي [ صندوق البريد ]
com.spamoracle [- التكوين أسيوط] [-f قاعدة بيانات] الإدارية REGEXP
com.spamoracle [- التكوين أسيوط] [-f قاعدة بيانات] دعم > ملف النسخ الاحتياطي
com.spamoracle [- التكوين أسيوط] [-f قاعدة بيانات] على استعادة < ملف النسخ الاحتياطي
com.spamoracle [- التكوين أسيوط] [-f قاعدة بيانات] كلمات [ صندوق البريد ]
الوصف
SpamOracle هي أداة للمساعدة في اكتشاف وتصفية "البريد العشوائي" (البريد الإلكتروني التجاري غير المرغوب فيه)
بريد). ويعتمد على التحليل الإحصائي للكلمات التي تظهر في البريد الإلكتروني،
مقارنة ترددات الكلمات مع تلك الموجودة في مجموعة المعلومات المعروفة التي يقدمها المستخدم
البريد العشوائي والبريد الإلكتروني الشرعي المعروف. تعتمد خوارزمية التصنيف على Bayes
الصيغة، وهي موصوفة في ورقة بول جراهام، A خطة لـ البريد المزعج,
http://www.paulgraham.com/spam.html.
تم تصميم هذا البرنامج للعمل بالتزامن مع بروكمايل(1). نتيجة
يتم إخراج التحليل كرأس رسالة إضافية البريد العشوائي: تليها نعم , لا or غير معروف,
بالإضافة إلى تفاصيل إضافية. يمكن لقاعدة procmail بعد ذلك اختبار ذلك البريد العشوائي: رأس وتسليم
البريد الإلكتروني إلى صندوق البريد المناسب.
بالإضافة إلى ذلك، يقوم SpamOracle أيضًا بتحليل مرفقات MIME واستخراج المعلومات ذات الصلة
مثل نوع MIME، وترميز الأحرف واسم الملف المرفق، وتلخيصها في ملف
إضافي مرفقات X: header. وهذا يسمح لـ procmail برفض رسائل البريد الإلكتروني بسهولة
تحتوي على مرفقات مشبوهة، على سبيل المثال الملفات التنفيذية لنظام التشغيل Windows والتي غالبًا ما تشير إلى وجود فيروس.
المتطلبات لأي لبس القيود
لاستخدام SpamOracle، يجب تسليم بريدك إلى جهاز Unix الذي يوجد لديك Shell عليه
حساب. يجب أن يكون هذا الجهاز بروكمايل(1) (انظر http://www.procmail.org/) المثبتة.
معلمتك اليوغا ~ /. إلى الأمام يجب إعداد الملف لتشغيل جميع رسائل البريد الإلكتروني الواردة من خلاله بروكمايل(1). لو
يدعم خادم البريد الخاص بك بروتوكولات POP أو IMAP، ويمكنك أيضًا استخدامها جلب البريد(1) إلى
قم بإحضار بريدك من الخادم وقم بتسليمه إلى جهازك المحلي.
لتوفير مجموعة الرسائل التي "يتعلم" منها SpamOracle، أرشيفًا يضم حوالي 1000 رسالة
هناك حاجة إلى رسائل البريد الإلكتروني الخاصة بك. يجب تقسيم الأرشيف يدويًا أو شبه تلقائيًا
الرسائل غير المرغوب فيها المعروفة والرسائل الجيدة المعروفة. الرسائل التي تم تصنيفها بشكل خاطئ في المجموعة (مثل الرسائل غير المرغوب فيها
المخزنة عن طريق الخطأ بين الرسائل الجيدة) سوف يقلل من كفاءة
تصنيف. يجب أن يكون الأرشيف بتنسيق صندوق بريد Unix، أو "رسالة واحدة لكل ملف"
تنسيق (على غرار MH). التنسيقات الأخرى، مثل Emacs' Babyl، غير مدعومة.
إن فكرة "الكلمة" التي يستخدمها SpamOracle مائلة نحو لغات أوروبا الغربية،
أي مجموعات الأحرف ISO Latin-1 وLatin-9. الدعم الأولي لترميز JIS
يمكن اختيار اللغة اليابانية في وقت الترجمة. لن يعمل SpamOracle بشكل جيد إذا تلقيت
العديد من رسائل البريد الإلكتروني الشرعية المكتوبة بمجموعات أحرف أخرى، مثل المجموعات الصينية أو الكورية.
التهيئة
لإنشاء قاعدة بيانات لتكرارات الكلمات من المجموعة، قم بما يلي:
rm ~/.spamoracle.db
com.spamoracle تضيف -v -جيد رسائل جيدة -رسائل إلكترونية مزعجة رسائل البريد العشوائي
بشكل افتراضي، يتم تخزين قاعدة البيانات في الملف .spamoracle.db في دليل منزلك.
يمكن تجاوز هذا مع -f الخيار: com.spamoracle -f com.mydatabase تضيف إنّ -v خيار
طباعة معلومات التقدم أثناء معالجة النص.
يفترض هذا أن الرسائل الجيدة وغير العشوائية من المجموعة مخزنة في الملف
رسائل جيدةوالرسائل العشوائية المعروفة في الملف رسائل البريد العشوائي. يمكنك أيضًا جلب المجموعة
رسائل من عدة ملفات و/أو معالجتها عبر عدة استدعاءات لـ SpamOracle:
com.spamoracle تضيف -جيد رسائل جيدة1 رسائل جيدةN
com.spamoracle تضيف -رسائل إلكترونية مزعجة رسائل البريد العشوائي1 رسائل البريد العشوائيP
اختبارات الدخول ال DATABASE
للتأكد من أن قاعدة البيانات تم إنشاؤها بشكل صحيح، والتعرف على
التحليل الإحصائي الذي يجريه SpamOracle، يستدعي وضع "الاختبار" على صناديق البريد التي
لقد استخدمت للتو لبناء الجسم:
com.spamoracle تجربه بالعربي رسائل جيدة | الأكثر من ذلك
com.spamoracle تجربه بالعربي رسائل البريد العشوائي | الأكثر من ذلك
لكل رسالة في صناديق البريد المحددة، سترى ملخصًا مثل هذا:
بدءًا من: BBO <[البريد الإلكتروني محمي]>
موضوع: تحقق هذه خارج
أحرز هدفاً: 1.00 -- 15
التفاصيل: تجديد:98 $$$$:98 ركوب الأمواج: 98 أسب:95 انقر: 93 الكابل: 92
على الفور: 90 https: 88 الإنترنت: 87 شبكة الاتصالات العالمية:86 ش4:85 ليس:14 الشهر: 81
كوم:75 تصفح: 75
المرفقات: كسيت = "GB2312" اكتب = "التطبيق/الثمانية تيار"
الاسم = "Guangwen4.zip"
ملف: البريد الوارد/314
أول سطرين هما فقط بدءًا من: موضوع: حقول الرسالة الأصلية
إنّ أحرز هدفاً: سطر يلخص نتيجة التحليل. الرقم الأول (بين 0.0 و
1.0) هو احتمال أن تكون الرسالة في الواقع بريدًا عشوائيًا --- أو الدرجة المكافئة
لتشابه الرسالة مع رسائل البريد العشوائي الموجودة في المجموعة. الرقم الثاني (
العدد الصحيح بين 0 و15) هو عدد الكلمات "المثيرة للاهتمام" الموجودة في الرسالة.
الكلمات "المثيرة للاهتمام" هي تلك التي تتكرر 5 مرات على الأقل في المجموعة. في المثال،
لدينا 15 كلمة مثيرة للاهتمام (الحد الأقصى) ودرجة 1.00، مما يشير إلى وجود بريد عشوائي مع
اليقين العالي.
إنّ التفاصيل: يقدم السطر شرحا للنتيجة. يسرد 15 الأكثر إثارة للاهتمام
الكلمات الموجودة في الرسالة، أي الكلمات الـ 15 المثيرة للاهتمام التي احتمالية حدوثها
مما يدل على أن البريد العشوائي هو الأبعد عن الرقم المحايد 0.5. يتم إعطاء كل كلمة مع لها
النتيجة الفردية، مكتوبة كنسبة مئوية (بين 01 و 99) وليس كاحتمال
وذلك لتوفير المساحة. وهنا نرى عددًا من الكلمات "غير المرغوب فيها" جدًا مثل $ $ $ $ or
انقرباحتمال 0.98 و0.93 على التوالي، وبعض الكلمات "البريئة" مثل
ليس (الاحتمال 0.14). ال U4 الكلمة ذات الاحتمال 0.85 هي في الواقع كلمة زائفة
تمثل كلمة مكونة من 4 أحرف كلها بأحرف كبيرة - وهو أمر يحبه مرسلي البريد العشوائي.
إنّ المرفقات: يلخص السطر بعض المعلومات حول مرفقات MIME لهذه الرسالة.
هنا، لدينا مرفق واحد من النوع التطبيق / تيار ثماني، اسم الملف Guangwen4.zip,
ومجموعة الأحرف GB2312 (ترميز للصينية).
إنّ ملف: يعرض السطر الملف الذي يتم اختباره.
عادة، عند التشغيل com.spamoracle تجربه بالعربي رسائل جيدةيجب أن تخرج معظم الرسائل بعلامة منخفضة
النتيجة (0.2 أو أقل)، وعند التشغيل com.spamoracle تجربه بالعربي رسائل البريد العشوائي، ينبغي أن تأتي معظم الرسائل
الخروج بدرجة عالية (0.8 أو أكثر). إذا لم يكن الأمر كذلك، فإن جسدك ليس جيدًا جدًا، أو ليس جيدًا
تصنف إلى البريد العشوائي وغير البريد العشوائي. لرؤية القيم المتطرفة بسرعة، يمكنك تقليل
الفاصل الزمني للنتائج التي يتم عرض ملخصات الرسائل لها، كما يلي:
com.spamoracle تجربه بالعربي -دقائق 0.2 رسائل جيدة | الأكثر من ذلك
# يظهر فقط خير رسائل مع أحرز هدفاً >= 0.2
com.spamoracle تجربه بالعربي -الأعلى 0.8 رسائل البريد العشوائي | الأكثر من ذلك
# يظهر فقط البريد المزعج رسائل مع أحرز هدفاً <= 0.8
الآن، لاختبار أكثر صعوبة، خذ صندوق بريد يحتوي على رسائل بريد إلكتروني لم تتم تصفيتها، على سبيل المثال
مزيج من البريد العشوائي ورسائل البريد الإلكتروني المشروعة، وتشغيله من خلال SpamOracle:
com.spamoracle تجربه بالعربي com.mymailbox | أقل
تعجب من مدى قدرة Oracle على التعرف على البريد العشوائي من الباقي! إذا كانت النتيجة ليست كذلك
رائع بالنسبة لك، ضع في اعتبارك أن بعض الرسائل غير المرغوب فيها قصيرة جدًا بحيث لا يمكن التعرف عليها (وليس
كلمات مهمة كافية). أيضًا، ربما كانت مجموعتك صغيرة جدًا، أو ليست جيدة
مصنفة ...
العلامات لأي لبس التصفية وارد E-MAIL
بمجرد إنشاء قاعدة البيانات، تصبح جاهزًا لتشغيل رسائل البريد الإلكتروني الواردة من خلال SpamOracle. ال
أمر com.spamoracle علامة يقرأ بريدًا إلكترونيًا واحدًا من الإدخال القياسي، وينسخه إلى المعيار
الإخراج، مع إدراج رأسين: البريد العشوائي: مرفقات X:. البريد العشوائي: رأس لديه واحد
التنسيقات التالية:
البريد العشوائي: نعم؛ أحرز هدفاً; تفاصيل
or
البريد العشوائي: لا؛ أحرز هدفاً; تفاصيل
or
البريد العشوائي: غير معروف؛ أحرز هدفاً; تفاصيل
إنّ أحرز هدفاً تفاصيل كما هو موضح ل com.spamoracle تجربه بالعربي.
إنّ نعم /لا/غير معروف تقوم العلامة بتجميع نتائج التحليل: نعم يعني أن النتيجة
هي >= 0.8 وتم العثور على 5 كلمات مثيرة للاهتمام على الأقل؛ لا يعني أن النتيجة <= 0.2
وتم العثور على 5 كلمات مثيرة للاهتمام على الأقل؛ غير معروف يتم إرجاعها على خلاف ذلك. ال غير معروف
تحدث الحالة عمومًا للرسائل القصيرة جدًا، حيث لا توجد كلمات كافية مثيرة للاهتمام
وجدت.
إنّ مرفقات X: يحتوي الرأس على نفس المعلومات الموجودة في المرفقات: مخرج ل
com.spamoracle تجربه بالعربي، أي ملخص لمرفقات الرسالة.
لمعالجة البريد الإلكتروني الوارد تلقائيًا من خلال SpamOracle والتصرف بناءً على النتائج
للتحليل، فقط أدخل "الوصفات" التالية في الملف ~ / .procmailrc:
: 0fw
| /usr/local/bin/spamoracle علامة
:0
* ^X-البريد العشوائي: نعم؛
صندوق البريد المزعج
ما تعنيه هذه الأوامر المبهمة هو:
- تشغيل كل البريد من خلال com.spamoracle علامة يأمر. (إذا لم يتم تثبيت spamoracle في
/ البيرة / المحلية / بن، اضبط المسار حسب الضرورة.) يؤدي ذلك إلى إضافة رأسين إلى الرسالة: X-
البريد المزعج: مرفقات X:، مع وصف نتائج تحليل البريد العشوائي والمرفقات
التحليل.
- إذا كان لدينا البريد العشوائي: نعم header، قم بتسليم الرسالة إلى الملف صندوق البريد المزعج بدلا من
صندوق البريد العادي الخاص بك. من المفترض أنك ستقرأ صندوق البريد المزعج مرة واحدة في حين، ولكن في كثير من الأحيان أقل
من صندوق البريد العادي الخاص بك. يمكن للمستخدمين الجريئين وضع / ديف / لاغية بدلا من صندوق البريد المزعج لمجرد
تخلص من الرسالة، ولكن من فضلك لا تفعل ذلك حتى تستخدم SpamOracle لفترة من الوقت
وسعداء بالنتائج. المعدل الإيجابي الخاطئ لـ SpamOracle (أي رسائل البريد الشرعية
مصنف كبريد عشوائي) منخفض (0.1%) ولكنه ليس خاليًا. لذلك، من الأفضل حفظ الرسائل غير المرغوب فيها المفترضة
في مكان ما، وقم بمسحها بسرعة من وقت لآخر.
إذا كنت ترغب في الاستمتاع ببعض التصفية المستندة إلى المرفقات، فإليك بعض قواعد البريد الإلكتروني
من أجل هذا:
:0
* ^ مرفقات X:.*name=".*\.(pif|scr|exe|bat|com)"
صندوق البريد المزعج
:0
* ^ مرفقات X:.*type = "audio/(x-wav|x-midi)
صندوق البريد المزعج
:0
* ^(نوع المحتوى:.*|مرفقات X:.*cset="|^الموضوع:.*=\?)(ks_c|gb2312|iso-2|euc-|big5|windows-1251)
صندوق البريد المزعج
تعامل القاعدة الأولى كبريد عشوائي كل بريد يحتوي على ملف Windows قابل للتنفيذ كمرفق.
عادةً ما يتم إرسال هذه الرسائل عن طريق الفيروسات. القاعدة الثانية تفعل الشيء نفسه مع المرفقات
من النوع x-wav أو x-midi. لا أتلقى عادةً الموسيقى عبر البريد الإلكتروني، على الرغم من أن بعضها شائع
يبدو أن فيروسات البريد الإلكتروني مغرمة بأنواع المرفقات هذه. القاعدة الثالثة تعامل على أنها بريد عشوائي كل
البريد الذي يستخدم ترميزات الأحرف المقابلة للغة الكورية والصينية واليابانية و
السيريلية.
UPDATING ال DATABASE
يمكنك في أي وقت إضافة المزيد من الرسائل غير المرغوب فيها المعروفة أو الرسائل المشروعة المعروفة إلى قاعدة البيانات عن طريق
يستخدم ال com.spamoracle تضيف أمر.
على سبيل المثال، إذا وجدت رسالة غير مرغوب فيها لم يتم تصنيفها على هذا النحو، فقم بفحصها
com.spamoracle تضيف -رسائل إلكترونية مزعجة، حتى يتمكن SpamOracle من التعلم من خطأه. (بدون اضافة
الوسيطات، سيقوم هذا الأمر بقراءة رسالة واحدة من الإدخال القياسي وتسجيلها على أنها
البريد العشوائي.) تحت المغفل(1) على سبيل المثال، فقط قم بتمييز الرسالة غير المرغوب فيها واكتبها
|spamoracle تضيف -رسائل إلكترونية مزعجة
وبالمثل، إذا وجدت رسالة مشروعة أثناء التحقق من صندوق الرسائل غير المرغوب فيها، فقم بتشغيلها
com.spamoracle تضيف -جيد.
هناك خيار آخر يتمثل في جمع المزيد من الرسائل غير المرغوب فيها المعروفة أو المزيد من الرسائل الجيدة المعروفة في صندوق البريد
الملفات، ومرة واحدة في حين القيام بذلك com.spamoracle تضيف -جيد new_good_mails or com.spamoracle تضيف -رسائل إلكترونية مزعجة
new_spam_mails.
الاستعلام ال DATABASE
من أجل تنويرك وترفيهك، يمكن الاستعلام عن محتويات قاعدة البيانات من خلال
التعبيرات العادية. ال com.spamoracle الإدارية REGEXP يسرد الأمر كافة الكلمات الموجودة في قاعدة البيانات
تلك المباراة REGEXP (تعبير عادي على نمط Emacs)، بالإضافة إلى عددها
الحوادث في البريد العشوائي والبريد الجيد. على سبيل المثال:
com.spamoracle الإدارية ". *" # إظهار الكل كلمات -- كبير قائمة!
com.spamoracle الإدارية "الجنس.*"
com.spamoracle الإدارية "لينكس.*"
DATABASE BACKUPS
يتم تخزين قاعدة البيانات التي يستخدمها SpamOracle بتنسيق ثنائي مضغوط وليس بشريًا
قابلة للقراءة. علاوة على ذلك، فإن هذا التنسيق عرضة للتغيير في الإصدارات اللاحقة من SpamOracle. ل
لتسهيل عمليات النسخ الاحتياطي والتحديثات، يمكن أيضًا معالجة محتويات قاعدة البيانات في ملف
المحمولة، تنسيق النص.
إنّ com.spamoracle دعم يقوم الأمر بتفريغ محتويات قاعدة البيانات إلى الإخراج القياسي، في ملف
تنسيق نصي ومحمول.
إنّ com.spamoracle على استعادة يقرأ الأمر مثل هذا التفريغ من الإدخال القياسي ويعيد بناء ملف
قاعدة البيانات مع هذه البيانات.
الإجراء الموصى به للترقية إلى إصدار أحدث من SpamOracle هو:
# قبل هيه رفع مستوى:
com.spamoracle دعم > ملف النسخ الاحتياطي
# إرفع مستوى باقتك البريد العشوائيOracle
# استعادة هيه قاعدة بيانات
com.spamoracle على استعادة < ملف النسخ الاحتياطي
التكوين التصفية المعلمات
يمكن تكوين العديد من المعلمات التي تحكم تصنيف الرسائل عبر أ
ملف الضبط. بشكل افتراضي، تتم قراءة التكوين من الملف .spamoracle.conf
في الدليل الرئيسي للمستخدم. يمكن تحديد ملف تكوين مختلف على
سطر الأوامر باستخدام - التكوين الخيار: com.spamoracle - التكوين myconfigfile
يتم وصف قائمة المعلمات القابلة للتكوين وتنسيق ملف التكوين
in spamoracle.conf(5).
جميع المعلمات لها إعدادات افتراضية معقولة، ولكن يمكنك محاولة تحسين الجودة
التصنيف بشكل أكبر عن طريق التغيير والتبديل. لتحديد تأثير التغييرات، استخدم
إما تجربه بالعربي or القانون الأساسي أوامر ل com.spamoracle. com.spamoracle القانون الأساسي يطبع الأمر واحدًا
ملخص سطري لعدد الرسائل غير المرغوب فيها وغير العشوائية والرسائل غير المعروفة التي تم العثور عليها في صناديق البريد
نظرا للحجج.
تقني المواصفات
إن مفهوم SpamOracle لـ "كلمة" هو أي سلسلة مكونة من 3 إلى 12 من الأحرف التالية: الحروف،
علامات الاقتباس المفردة والشرطات (-). إذا تم تجميع الدعم للغات الأوروبية غير الإنجليزية
في، تتضمن أحرف الكلمات أيضًا الحروف المحركة ذات الصلة باللغات الموجودة
سؤال. يتم تعيين كافة الكلمات إلى أحرف صغيرة، ويتم تعيين الأحرف المحركة إلى
الحروف المقابلة غير المحركة.
يشكل أيضًا تشغيل من 3 إلى 12 من الأحرف التالية كلمة: أرقام، نقاط،
الفواصل والدولار واليورو وعلامات النسبة المئوية.
بالإضافة إلى ذلك، يؤدي تشغيل ثلاثة أحرف كبيرة أو أكثر إلى إنشاء كلمة زائفة Un أين n
هو طول المدى. وبالمثل، فإن تشغيل ثلاثة أحرف أو أكثر غير ASCII (الرمز >=
128) يولد كلمة زائفة Wn أين n هو طول المدى.
على سبيل المثال النص التالي:
مستلزمات in الإنجليزية is مكتوب "إيتي" in الفرنسية
تتم معالجتها في الكلمات التالية، على افتراض أنه تم اختيار الدعم الفرنسي في الترجمة
زمن:
U5 الصيف English مكتوب مؤسسة التدريب الأوروبية اللغة الفرنسية W3
وإذا لم يتم اختيار الدعم الفرنسي:
U5 الصيف English مكتوب اللغة الفرنسية W3
لرؤية الكلمات المستخرجة من الرسالة، قم بإصدار com.spamoracle كلمات أمر.
يقرأ إما رسالة واحدة من الإدخال القياسي، أو كافة الرسائل من صندوق البريد
الملفات المعطاة كوسيطات، تقوم بتحليل الرسائل إلى كلمات وطباعة الكلمات.
RANDOM الملاحظات
يمكن ضغط ملف قاعدة البيانات باستخدام GZIP(1) لتوفير مساحة القرص، على حساب
أبطأ com.spamoracle عمليات. إذا كان ملف قاعدة البيانات المحدد مع -f الخيار لديه
تمديد .gz, com.spamoracle سيتم فك ضغطه تلقائيًا عند بدء التشغيل، وإعادة ضغطه مرة أخرى
بعد التحديثات.
إذا تم تخزين البريد الخاص بك بتنسيق MH، فقد تواجه أخطاء "سطر الأوامر طويل جدًا" أثناء ذلك
تحاول معالجة الكثير من الملفات الصغيرة باستخدام ملف com.spamoracle تضيف الأمر، على سبيل المثال عند القيام
com.spamoracle تضيف -جيد أرشيف/*/* -رسائل إلكترونية مزعجة رسائل إلكترونية مزعجة/*
بدلاً من ذلك، افعل شيئًا مثل:
جد أرشيف من نوع f -طباعة | com.xargs com.spamoracle تضيف -جيد
جد البريد المزعج من نوع f -طباعة | com.xargs com.spamoracle تضيف -رسائل إلكترونية مزعجة
استخدم spamoracle عبر الإنترنت باستخدام خدمات onworks.net