Đây là lệnh spamoracle có thể chạy trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks bằng cách sử dụng một trong nhiều máy trạm trực tuyến miễn phí của chúng tôi như Ubuntu Online, Fedora Online, trình giả lập trực tuyến Windows hoặc trình mô phỏng trực tuyến MAC OS
CHƯƠNG TRÌNH:
TÊN
spamoracle - một công cụ phân loại thư rác
SYNOPSIS
thư rác [-config conf] [-f cơ sở dữ liệu] dấu [ hộp thư ... ]
thư rác [-config conf] [-f cơ sở dữ liệu] thêm vào [-v] -Thư rác hộp thư rác ... -tốt hộp đựng đồ ...
thư rác [-config conf] [-f cơ sở dữ liệu] thử nghiệm [-phút thăm dò] [-tối đa thăm dò] [ hộp thư ... ]
thư rác [-config conf] [-f cơ sở dữ liệu] stat [ hộp thư ... ]
thư rác [-config conf] [-f cơ sở dữ liệu] regexp ...
thư rác [-config conf] [-f cơ sở dữ liệu] sao lưu > tập tin sao lưu
thư rác [-config conf] [-f cơ sở dữ liệu] khôi phục < tập tin sao lưu
thư rác [-config conf] [-f cơ sở dữ liệu] từ [ hộp thư ... ]
MÔ TẢ
SpamOracle là một công cụ giúp phát hiện và lọc bỏ "thư rác" (e-
thư). Nó tiến hành bằng cách phân tích thống kê các từ xuất hiện trong e-mail,
so sánh tần số của các từ với những từ được tìm thấy trong kho ngữ liệu đã biết do người dùng cung cấp
thư rác và e-mail hợp pháp đã biết. Thuật toán phân loại dựa trên Bayes '
và được mô tả trong bài báo của Paul Graham, A kế hoạch cho thư rác,
http://www.paulgraham.com/spam.html.
Chương trình này được thiết kế để hoạt động cùng với gửi thư(1). Kết quả của
phân tích được xuất ra dưới dạng một tiêu đề thư bổ sung Thư rác X: tiếp theo Vâng, Không or không xác định,
cộng với các chi tiết bổ sung. Sau đó, một quy tắc procmail có thể kiểm tra điều này Thư rác X: tiêu đề và cung cấp
e-mail đến hộp thư thích hợp.
Ngoài ra, SpamOracle còn phân tích các tệp đính kèm MIME, trích xuất thông tin liên quan
chẳng hạn như kiểu MIME, mã hóa ký tự và tên tệp đính kèm, và tóm tắt chúng trong một
bổ sung Tệp đính kèm X: đầu trang. Điều này cho phép procmail dễ dàng từ chối e-mail
chứa các tệp đính kèm đáng ngờ, ví dụ như tệp thực thi Windows thường chỉ ra một loại vi-rút.
YÊU CẦU VÀ GIỚI HẠN
Để sử dụng SpamOracle, thư của bạn phải được gửi đến một máy Unix mà bạn có một trình bao
tài khoản. Máy này phải có gửi thư(1) (xem http://www.procmail.org/) Cài đặt.
trên màn hình ~ /. đơn giản tệp phải được thiết lập để chạy tất cả các e-mail đến qua gửi thư(1). Nếu như
máy chủ thư của bạn hỗ trợ giao thức POP hoặc IMAP, bạn cũng có thể sử dụng nhận thư(1) tới
tìm nạp thư của bạn từ máy chủ và gửi nó đến máy cục bộ của bạn.
Để cung cấp kho dữ liệu thư mà từ đó SpamOracle "học", một kho lưu trữ khoảng 1000
e-mail của bạn là cần thiết. Tệp lưu trữ phải được tách thủ công hoặc bán tự động thành
thư rác đã biết và tin nhắn tốt đã biết. Thư được phân loại sai trong kho ngữ liệu (ví dụ: thư rác
được lưu trữ nhầm giữa các thư tốt) sẽ làm giảm hiệu quả của
sự phân loại. Tệp lưu trữ phải ở định dạng hộp thư Unix hoặc ở dạng "một thư cho mỗi tệp"
định dạng (a la MH). Các định dạng khác, chẳng hạn như Emacs 'Babyl, không được hỗ trợ.
Khái niệm "từ" được SpamOracle sử dụng nghiêng về các ngôn ngữ Tây Âu,
tức là bộ ký tự ISO Latin-1 và Latin-9. Hỗ trợ sơ bộ cho mã hóa JIS
Tiếng Nhật có thể được chọn tại thời điểm biên dịch. SpamOracle sẽ không hoạt động tốt nếu bạn nhận được
nhiều e-mail hợp pháp được viết bằng các bộ ký tự khác, chẳng hạn như bộ Trung Quốc hoặc Hàn Quốc.
BAN ĐẦU
Để xây dựng cơ sở dữ liệu tần số từ từ kho ngữ liệu, hãy thực hiện:
rm ~ / .spamoracle.db
thư rác thêm vào -v -tốt thư tốt -Thư rác thư rác
Theo mặc định, cơ sở dữ liệu được lưu trữ trong tệp .spamoracle.db trong thư mục chính của bạn.
Điều này có thể được ghi đè với -f tùy chọn: thư rác -f cơ sở dữ liệu của tôi thêm vào ... Sản phẩm -v tùy chọn
in thông tin tiến độ trong quá trình xử lý kho dữ liệu.
Điều này giả định rằng các thư tốt, không phải là thư rác từ kho tài liệu được lưu trữ trong tệp
thư tốtvà các tin nhắn rác đã biết trong tệp thư rác. Bạn cũng có thể tìm nạp kho tài liệu
thư từ một số tệp và / hoặc xử lý chúng thông qua một số lệnh gọi của SpamOracle:
thư rác thêm vào -tốt thư tốt1 ... thư tốtN
thư rác thêm vào -Thư rác thư rác1 ... thư rácP
THỬ NGHIỆM CÁC DATABASE
Để kiểm tra xem cơ sở dữ liệu có được xây dựng chính xác hay không và tự làm quen với
phân tích thống kê được thực hiện bởi SpamOracle, gọi chế độ "kiểm tra" trên các hộp thư
bạn vừa sử dụng để xây dựng kho dữ liệu:
thư rác thử nghiệm thư tốt | chi tiết
thư rác thử nghiệm thư rác | chi tiết
Đối với mỗi thư trong các hộp thư nhất định, bạn sẽ thấy một bản tóm tắt như sau:
Từ: bbo <[email được bảo vệ]>
Chủ đề: kiểm tra T Out
Ghi bàn: 1.00 -- 15
Chi tiết: refid: 98 $$$$: 98 lướt sóng: 98 asp: 95 bấm: 93 cáp: 92
ngay lập tức: 90 https: 88 internet: 87 www: 86 U4: 85 không phải: 14 tháng: 81
com: 75 lướt sóng: 75
File đính kèm: cset = "GB2312" type = "application / octet-stream"
name = "Guangwen4.zip"
File: hộp thư đến / 314
Hai dòng đầu tiên chỉ là Từ: và Chủ đề: các trường của tin nhắn gốc.
Sản phẩm Ghi bàn: dòng tóm tắt kết quả phân tích. Số đầu tiên (từ 0.0 đến
1.0) là xác suất thư thực sự là thư rác --- hoặc, tương đương, mức độ
về sự tương đồng của thư với các thư rác trong kho tài liệu. Số thứ hai (an
số nguyên từ 0 đến 15) là số từ "thú vị" được tìm thấy trong thư.
Những từ "thú vị" là những từ xuất hiện ít nhất 5 lần trong ngữ liệu. Trong ví dụ,
chúng tôi có 15 từ thú vị (tối đa) và điểm là 1.00, cho thấy một thư rác có
độ chắc chắn cao.
Sản phẩm Chi tiết: dòng cung cấp lời giải thích về điểm số. Nó liệt kê 15 điều thú vị nhất
các từ được tìm thấy trong tin nhắn, tức là 15 từ thú vị có xác suất
biểu thị một thư rác là xa nhất so với mức trung lập 0.5. Mỗi từ được đưa ra với
điểm cá nhân, được viết dưới dạng phần trăm (từ 01 đến 99) chứ không phải là xác suất
để tiết kiệm không gian. Ở đây, chúng ta thấy một số từ rất "cay độc" chẳng hạn như $ $ $ $ or
Nhấp chuột, với xác suất lần lượt là 0.98 và 0.93, và một vài từ "vô tội" như
không phải (xác suất 0.14). Các U4 từ có xác suất 0.85 thực sự là một từ giả
đại diện cho một từ gồm 4 chữ cái, tất cả đều được viết hoa - điều mà những kẻ gửi thư rác rất thích.
Sản phẩm File đính kèm: dòng tóm tắt một số thông tin về tệp đính kèm MIME cho thư này.
Ở đây, chúng tôi có một tệp đính kèm loại ứng dụng / octect-stream, tên tệp Quảng Văn4.zip,
và bộ ký tự GB2312 (một bảng mã cho tiếng Trung Quốc).
Sản phẩm File: dòng hiển thị tệp đang được kiểm tra.
Thông thường, khi chạy thư rác thử nghiệm thư tốt, hầu hết các tin nhắn sẽ xuất hiện với
điểm (0.2 trở xuống) và khi chạy thư rác thử nghiệm thư rác, hầu hết các tin nhắn sẽ đến
ra với số điểm cao (0.8 trở lên). Nếu không, tài liệu của bạn không tốt hoặc không tốt
được phân loại thành thư rác và không thư rác. Để nhanh chóng nhìn thấy các ngoại lệ, bạn có thể giảm
khoảng điểm mà các bản tóm tắt tin nhắn được hiển thị, như sau:
thư rác thử nghiệm -phút 0.2 thư tốt | chi tiết
# Chương trình có thể tốt mail với Điểm số >= 0.2
thư rác thử nghiệm -tối đa 0.8 thư rác | chi tiết
# Chương trình có thể thư rác mail với Điểm số <= 0.8
Bây giờ, đối với một bài kiểm tra khó khăn hơn, hãy lấy một hộp thư có chứa các e-mail chưa được lọc, tức là
hỗn hợp thư rác và e-mail hợp pháp, và chạy nó thông qua SpamOracle:
thư rác thử nghiệm hộp thư của tôi | ít
Kinh ngạc về cách nhà tiên tri nhận ra thư rác từ phần còn lại! Nếu kết quả không phải như vậy
tuyệt vời đối với bạn, hãy nhớ rằng một số thư rác nhất định chỉ quá ngắn để được nhận dạng (không
đủ các từ có nghĩa). Ngoài ra, có lẽ kho tài liệu của bạn quá nhỏ hoặc không tốt
đã phân loại ...
Đánh dấu VÀ LỌC MỚI ĐẾN E-MAIL
Sau khi cơ sở dữ liệu được xây dựng, bạn đã sẵn sàng chạy các e-mail đến thông qua SpamOracle. Các
lệnh thư rác dấu đọc một e-mail từ đầu vào tiêu chuẩn và sao chép nó sang tiêu chuẩn
đầu ra, với hai tiêu đề được chèn: Thư rác X: và Tệp đính kèm X:. Các Thư rác X: tiêu đề có một
các định dạng sau:
Thư rác X: Đúng; Điểm số; chi tiết
or
Thư rác X: Không; Điểm số; chi tiết
or
Thư rác X: không xác định; Điểm số; chi tiết
Sản phẩm Điểm số và chi tiết như được mô tả cho thư rác thử nghiệm.
Sản phẩm Vâng/Không/không xác định tag tổng hợp kết quả phân tích: Vâng có nghĩa là điểm số
là> = 0.8 và ít nhất 5 từ thú vị đã được tìm thấy; Không nghĩa là điểm <= 0.2
và ít nhất 5 từ thú vị đã được tìm thấy; không xác định được trả lại nếu không. Các không xác định
trường hợp này thường xảy ra đối với các tin nhắn rất ngắn, trong đó không có đủ các từ thú vị
tìm.
Sản phẩm Tệp đính kèm X: tiêu đề chứa thông tin giống như File đính kèm: đầu ra của
thư rác thử nghiệm, nghĩa là, một bản tóm tắt của các phần đính kèm tin nhắn.
Để xử lý tự động e-mail đến của bạn thông qua SpamOracle và hành động dựa trên kết quả
phân tích, chỉ cần chèn "công thức nấu ăn" sau vào tệp ~ / .procmailrc:
: 0fw
| / usr / local / bin / spamoracle dấu
:0
* ^ X-Spam: Đúng;
hộp thư rác
Ý nghĩa của những lệnh khó hiểu này là:
- Chạy mọi thư thông qua thư rác dấu chỉ huy. (Nếu spamoracle không được cài đặt trong
/ usr / local / bin, điều chỉnh đường dẫn nếu cần.) Điều này sẽ thêm hai tiêu đề vào thư: X-
Thư rác: và Tệp đính kèm X:, mô tả kết quả phân tích thư rác và tệp đính kèm
phân tích.
- Nếu chúng ta có một Thư rác X: Vâng tiêu đề, gửi thông điệp đến tệp hộp thư rác hơn là để
hộp thư thông thường của bạn. Có lẽ, bạn sẽ đọc hộp thư rác thỉnh thoảng, nhưng ít thường xuyên hơn
hơn hộp thư thông thường của bạn. Người dùng táo bạo có thể đặt / dev / null thay vì hộp thư rác chỉ
vứt bỏ tin nhắn, nhưng vui lòng không làm điều đó cho đến khi bạn đã sử dụng SpamOracle một thời gian
và hài lòng với kết quả. Tỷ lệ dương tính giả của SpamOracle (tức là các thư hợp pháp
được phân loại là thư rác) thấp (0.1%) nhưng không rỗng. Vì vậy, tốt hơn nên lưu các thư rác giả định
ở đâu đó và thỉnh thoảng quét chúng một cách nhanh chóng.
Nếu bạn muốn tận hưởng một chút tính năng lọc dựa trên tệp đính kèm, đây là một số quy tắc procmail
cho rằng:
:0
* ^ X-Attachments:. * Name = ". * \. (Pif | scr | exe | bat | com)"
hộp thư rác
:0
* ^ X-Attachments:. * Type = "audio / (x-wav | x-midi)
hộp thư rác
:0
* ^ (Content-type:. * | X-Attachments:. * Cset = "| ^ Subject:. * = \?) (Ks_c | gb2312 | iso-2 | euc- | big5 | windows-1251)
hộp thư rác
Quy tắc đầu tiên coi là thư rác mọi thư có tệp thực thi Windows dưới dạng tệp đính kèm.
Những thư này thường được gửi bởi vi-rút. Quy tắc thứ hai thực hiện tương tự với tệp đính kèm
thuộc loại x-wav hoặc x-midi. Tôi thường không bao giờ nhận nhạc qua e-mail, tuy nhiên, một số
virus e-mail có vẻ thích các loại tệp đính kèm này. Quy tắc thứ ba coi là thư rác mọi
thư sử dụng mã hóa ký tự tương ứng với tiếng Hàn, tiếng Trung, tiếng Nhật và
Kirin.
CẬP NHẬT CÁC DATABASE
Bất cứ lúc nào, bạn có thể thêm các thư rác đã biết hoặc các thư hợp pháp đã biết vào cơ sở dữ liệu bằng cách
bằng cách sử dụng thư rác thêm vào chỉ huy.
Ví dụ: nếu bạn tìm thấy một tin nhắn rác không được phân loại như vậy, hãy chạy nó qua
thư rác thêm vào -Thư rác, để SpamOracle có thể học hỏi từ sai lầm của mình. (Không bổ sung
đối số, lệnh này sẽ đọc một thông báo từ đầu vào chuẩn và ghi lại nó dưới dạng
thư rác.) Dưới người đần độn(1) chẳng hạn, chỉ cần đánh dấu tin nhắn rác và nhập
| spamoracle thêm vào -Thư rác
Tương tự, nếu bạn tìm thấy một thư hợp lệ trong khi kiểm tra hộp thư rác của mình, hãy chạy nó qua
thư rác thêm vào -tốt.
Một tùy chọn khác là thu thập các thư rác đã biết nhiều hơn hoặc các tin nhắn hay được biết đến nhiều hơn vào hộp thư
và thỉnh thoảng làm thư rác thêm vào -tốt new_good_mails or thư rác thêm vào -Thư rác
new_spam_mails.
HỎI CÁC DATABASE
Đối với việc chỉnh sửa và giải trí của bạn, nội dung của cơ sở dữ liệu có thể được truy vấn bằng cách
biểu thức chính quy. Các thư rác regexp lệnh liệt kê tất cả các từ trong cơ sở dữ liệu
trận đấu đó regexp (một biểu thức chính quy kiểu Emacs), cùng với số lượng
lần xuất hiện trong thư rác và thư tốt. Ví dụ:
thư rác '. *' # hiển thị tất cả các từ -- to danh sách!
thư rác 'tình dục. *'
thư rác 'linux. *'
DATABASE SAO LƯU
Cơ sở dữ liệu được SpamOracle sử dụng được lưu trữ ở định dạng nhị phân, nhỏ gọn không dành cho con người
có thể đọc được. Hơn nữa, định dạng này có thể thay đổi trong các phiên bản sau của SpamOracle. Đến
tạo điều kiện thuận lợi cho việc sao lưu và nâng cấp, nội dung cơ sở dữ liệu cũng có thể được thao tác trong một
di động, định dạng văn bản.
Sản phẩm thư rác sao lưu lệnh kết xuất nội dung của cơ sở dữ liệu ra đầu ra tiêu chuẩn, trong một
định dạng văn bản, di động.
Sản phẩm thư rác khôi phục lệnh đọc một kết xuất như vậy từ đầu vào tiêu chuẩn và xây dựng lại
cơ sở dữ liệu với dữ liệu này.
Quy trình được khuyến nghị để nâng cấp lên phiên bản SpamOracle mới hơn là:
# Trước các nâng cấp:
thư rác sao lưu > tập tin sao lưu
# Upgrade Thư rácOracle
# Khôi phục các cơ sở dữ liệu
thư rác khôi phục < tập tin sao lưu
CẤU HÌNH LỌC THÔNG SỐ
Nhiều tham số chi phối việc phân loại thông báo có thể được định cấu hình thông qua
tập tin cấu hình. Theo mặc định, cấu hình được đọc từ tệp .spamoracle.conf
trong thư mục chính của người dùng. Một tệp cấu hình khác có thể được chỉ định trên
dòng lệnh sử dụng -config tùy chọn: thư rác -config tập tin cấu hình của tôi ...
Danh sách các tham số có thể định cấu hình và định dạng của tệp cấu hình được mô tả
in spamoracle.conf(5).
Tất cả các tham số đều có giá trị mặc định hợp lý, nhưng bạn có thể cố gắng cải thiện chất lượng của
phân loại thêm bằng cách điều chỉnh chúng. Để xác định tác động của những thay đổi của bạn, hãy sử dụng
hoặc là thử nghiệm or stat lệnh cho thư rác. Các thư rác stat lệnh in ra một-
tóm tắt dòng về số lượng thư rác, không phải thư rác và thư không xác định đã được tìm thấy trong hộp thư
được đưa ra dưới dạng các đối số.
KỸ THUẬT CHI TIẾT
Khái niệm "từ" của SpamOracle là bất kỳ khoảng từ 3 đến 12 ký tự sau: chữ cái,
dấu ngoặc kép và dấu gạch ngang (-). Nếu hỗ trợ cho các ngôn ngữ châu Âu không phải tiếng Anh đã được biên dịch
trong, các ký tự từ cũng bao gồm các chữ cái có dấu có liên quan cho các ngôn ngữ trong
câu hỏi. Tất cả các từ được ánh xạ thành chữ thường và các chữ cái có dấu được ánh xạ tới
các chữ cái không dấu tương ứng.
Một dãy từ 3 đến 12 ký tự sau đây cũng tạo thành một từ: chữ số, dấu chấm,
dấu phẩy và đô la, Euro và dấu phần trăm.
Ngoài ra, một loạt ba chữ hoa trở lên sẽ tạo ra một từ giả Un Ở đâu n
là độ dài của đường chạy. Tương tự, một loạt ba hoặc nhiều ký tự không phải ASCII (mã> =
128) tạo ra một từ giả Wn Ở đâu n là độ dài của đường chạy.
Ví dụ, văn bản sau:
SUMMER in Tiếng Anh is viết "ete" in Tiếng Pháp
được xử lý thành các từ sau, giả sử rằng hỗ trợ tiếng Pháp đã được chọn khi biên dịch-
thời gian:
U5 mùa hè Anh viết ete người Pháp W3
và nếu hỗ trợ của Pháp không được chọn:
U5 mùa hè Anh viết người Pháp W3
Để xem các từ được trích xuất từ một tin nhắn, hãy phát hành thư rác từ chỉ huy.
Nó đọc một tin nhắn từ đầu vào chuẩn hoặc tất cả các tin nhắn từ hộp thư
các tệp được cung cấp dưới dạng đối số, phân tách các thông báo thành các từ và in các từ đó.
RANDOM GHI CHÚ
Tệp cơ sở dữ liệu có thể được nén bằng gzip(1) để tiết kiệm không gian đĩa, với chi phí
chậm hơn thư rác các hoạt động. Nếu tệp cơ sở dữ liệu được chỉ định với -f tùy chọn có
mở rộng .gz, thư rác sẽ tự động giải nén nó khi khởi động và nén lại
sau khi cập nhật.
Nếu thư của bạn được lưu trữ ở định dạng MH, bạn có thể gặp phải lỗi "dòng lệnh quá dài" trong khi
cố gắng xử lý nhiều tệp nhỏ với thư rác thêm vào lệnh, ví dụ khi làm
thư rác thêm vào -tốt lưu trữ / * / * -Thư rác Thư rác/*
Thay vào đó, hãy làm điều gì đó như:
tìm tài liệu lưu trữ -kiểu f -in | xargs thư rác thêm vào -tốt
tìm thư rác -kiểu f -in | xargs thư rác thêm vào -Thư rác
Sử dụng spamoracle trực tuyến bằng các dịch vụ onworks.net