Đây là spamprobe lệnh có thể được chạy trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks bằng cách sử dụng một trong nhiều máy trạm trực tuyến miễn phí của chúng tôi như Ubuntu Online, Fedora Online, trình giả lập trực tuyến Windows hoặc trình mô phỏng trực tuyến MAC OS
CHƯƠNG TRÌNH:
TÊN
spamprobe - Một bộ lọc thư rác Bayes
SYNOPSIS
áo choàng tắm [lựa chọn] lệnh [các tập tin ...]
MÔ TẢ
SpamProbe là một bộ lọc thư rác dựa trên phân tích của Bayes về tần suất các từ được sử dụng
trong các email spam và không phải spam do một cá nhân nhận được. Quá trình này hoàn toàn
tự động và tự điều chỉnh cho phù hợp với các loại email mà mỗi người nhận được.
SpamProbe nhận dạng và giải mã các tệp đính kèm MIME ở dạng mã hóa có thể in được trích dẫn và mã hóa base64.
Tệp đính kèm hình ảnh được coi là những từ có thể báo hiệu một thư rác. Theo mặc định, nó bỏ qua
Các thẻ HTML cho mục đích ghi điểm.
SpamProbe hỗ trợ các định dạng hộp thư MBOX, MBX và Maildir. Các định dạng này tự động
được phát hiện cho các hộp thư được sử dụng làm tham số của lệnh SpamProbe.
áo choàng tắm được thiết kế để sử dụng trong các đại lý chuyển phát thư (MDA) như gửi thư(1) hoặc
thư thả(1) để giúp xác định thư rác.
LỰA CHỌN
Các tùy chọn được công nhận là:
-a xe tăng
Theo mặc định, SpamProbe chuyển đổi các ký tự không phải ascii (các ký tự có nhiều nhất
bit quan trọng được đặt thành 1) thành ký tự 'z'. Điều này rất hữu ích cho việc tập hợp tất cả người châu Á
các ký tự thành một từ duy nhất để dễ nhận dạng. Tùy chọn -a cho phép bạn thay đổi
ký tự sang một cái gì đó khác nếu bạn không thích ký tự 'z' vì lý do nào đó.
-c
Yêu cầu SpamProbe tạo thư mục cơ sở dữ liệu nếu nó chưa tồn tại.
Thông thường SpamProbe thoát với lỗi sử dụng nếu thư mục cơ sở dữ liệu chưa có
hiện hữu.
-C con số
Yêu cầu SpamProbe chỉ định xác suất mặc định, hơi trung tính, cho bất kỳ thuật ngữ nào
không có trọng số (số lượng tốt nhân đôi) ít nhất là con số trong
cơ sở dữ liệu. Điều này ngăn các cụm từ chỉ được nhìn thấy một vài lần khỏi có
ảnh hưởng không hợp lý đến điểm số của một email chứa chúng.
Giá trị mặc định là 5. Ví dụ nếu con số sau đó là 5 để một thuật ngữ sử dụng
xác suất được tính toán, nó phải được nhìn thấy 3 lần trong những bức thư tốt, hoặc 2 lần trong
thư tốt và một lần trong thư rác, hoặc 5 lần trong thư rác, hoặc một số kết hợp khác cộng lại
đến ít nhất 5.
-d [type:] thư mục
Theo mặc định, SpamProbe lưu trữ cơ sở dữ liệu của nó trong một thư mục có tên .spamprobe trong
thư mục chính. Các -d tùy chọn cho phép bạn chỉ định một thư mục khác để sử dụng. Cái này
là cần thiết nếu thư mục chính của bạn được gắn kết NFS chẳng hạn.
Tên thư mục có thể được đặt trước bằng một mã đặc biệt để buộc SpamProbe sử dụng
loại định dạng tệp dữ liệu cụ thể. Các loại được xác định bao gồm:
-d bdb: đường dẫn
Buộc sử dụng tệp dữ liệu Berkeley DB.
-d băm: đường dẫn
Buộc sử dụng tệp băm được ánh xạ.
-d split: đường dẫn
Buộc sử dụng tệp băm và tệp ISAM (có thể cung cấp độ chính xác tốt hơn
băm đơn giản trong một số trường hợp).
Sản phẩm băm: tùy chọn cũng có thể chỉ định kích thước tệp mong muốn tính bằng megabyte trước đường dẫn.
Ví dụ -d hash: 19: path sẽ khiến SpamProbe sử dụng tệp băm 19 MB. Kích cỡ
phải nằm trong khoảng 1-100. Kích thước tệp băm mặc định là 16 MB. Bởi vì tệp băm
có kích thước và công suất cố định, chúng nên được làm sạch tương đối thường xuyên bằng cách sử dụng
dọn dẹp lệnh (xem bên dưới) để ngăn chúng bị đầy hoặc bị làm chậm quá
nhiều va chạm phím băm.
Các tệp băm cung cấp hiệu suất tốt hơn Berkeley DB. Tuy nhiên, các tệp băm không
lưu trữ các điều khoản ban đầu. Chỉ một khóa băm 32 bit được lưu trữ với mỗi thuật ngữ. Cái này
ngăn người dùng khám phá các điều khoản trong cơ sở dữ liệu bằng cách sử dụng lệnh kết xuất để xem
những từ nào đặc biệt là spam hoặc hammy. Định dạng tệp dữ liệu mặc định là Berkeley
BD (bdb).
-D thư mục
Yêu cầu SpamProbe sử dụng cơ sở dữ liệu trong thư mục được chỉ định (phải khác với
cái được chỉ định với -d tùy chọn) như một cơ sở dữ liệu được chia sẻ để từ đó rút ra các điều khoản
không được xác định trong cơ sở dữ liệu riêng của người dùng. Điều này có thể được sử dụng để cung cấp
cơ sở dữ liệu cơ sở được chia sẻ bởi tất cả người dùng trên hệ thống (trong -D thư mục) và riêng tư
cơ sở dữ liệu duy nhất cho mỗi người dùng của hệ thống ($ HOME / .spamprobe hoặc -d danh mục).
-g tên trường
Cho SpamProbe biết tiêu đề nào để tìm điểm trước đó và thông báo tin nhắn. Mặc định
là X-SpamProbe. Tên trường không phân biệt chữ hoa chữ thường. Được sử dụng bởi tất cả các lệnh ngoại trừ nhận.
-h
Theo mặc định, SpamProbe xóa đánh dấu HTML khỏi văn bản trong email để tránh sai
tích cực. Các -h cho phép bạn ghi đè hành vi này và buộc SpamProbe
bao gồm các từ trong thẻ HTML trong số lượng từ của nó. Lưu ý rằng SpamProbe luôn
đếm bất kỳ URL nào trong hrefs trong các thẻ cho dù -h được sử dụng hay không. Sử dụng tùy chọn này là
nản lòng. Nó có thể làm tăng tỷ lệ phát hiện thư rác một chút nhưng trừ khi người dùng
nhận được một lượng đáng kể các email HTML, nó cũng có xu hướng tăng số lượng
dương tính giả.
-H tùy chọn
Theo mặc định, SpamProbe chỉ quét một tập hợp con có ý nghĩa các tiêu đề từ email
khi tìm kiếm các từ để ghi điểm. Các -H tùy chọn cho phép người dùng chỉ định bổ sung
tiêu đề để quét. Giá trị pháp lý là tất cả các, nox, không ai, hoặc là bình thường. tất cả các quét tất cả các tiêu đề,
nox quét tất cả các tiêu đề ngoại trừ những tiêu đề bắt đầu bằng X-, không ai không quét tiêu đề, và
bình thường quét tập hợp tiêu đề bình thường.
Ngoài những giá trị đó, bạn cũng có thể thêm tiêu đề một cách rõ ràng vào danh sách
tiêu đề để xử lý bằng cách thêm tên tiêu đề bằng chữ thường trước dấu cộng.
Nhiều tiêu đề có thể được chỉ định bằng cách sử dụng nhiều -H tùy chọn. Ví dụ, để
chỉ bao gồm Từ và Nhận được tiêu đề trong của bạn đào tạo lệnh bạn có thể chạy
SpamProbe như sau:
spamprobe -Hnone -H + từ -H + nhận tàu
Để xử lý tập hợp tiêu đề bình thường nhưng cũng thêm tiêu đề SpamAssassin X-SpamStatus
bạn có thể chạy SpamProbe như sau:
spamprobe -H + x-spam-status train
-l con số
Thay đổi ngưỡng xác suất thư rác cho email từ mặc định (0.7) Để con số.
Số phải có giá trị từ 0 đến 1. Nói chung giá trị phải trên 0.5 đến
tránh tỷ lệ dương tính giả cao. Các con số thấp hơn có xu hướng tạo ra nhiều dương tính giả hơn
trong khi những con số cao hơn có xu hướng giảm độ chính xác.
-m
Buộc SpamProbe sử dụng định dạng mbox để đọc email trong nhận chế độ. Thông thường
SpamProbe giả định rằng đầu vào cho nhận chế độ chứa một thông báo duy nhất nên nó
không tìm kiếm ngắt thư.
-M
Buộc SpamProbe phải coi toàn bộ dữ liệu đầu vào là một thông báo duy nhất. Điều này bỏ qua Từ
dòng và Thời lượng nội dung tiêu đề trong đầu vào.
-o tùy chọn
Cho phép các tùy chọn đặc biệt theo tên. Hiện tại, các tùy chọn đặc biệt duy nhất là:
-o graham
Khiến SpamProbe mô phỏng thuật toán lọc được nêu ban đầu trong [A Plan
Đối với thư rác].
-o tiêu đề danh dự
Khiến SpamProbe bỏ qua các thư nếu chúng có Trạng thái: tiêu đề chứa
capital D. Một số máy chủ thư sử dụng trạng thái này để chỉ ra một thư đã được
được gắn cờ để xóa nhưng vẫn chưa được xóa khỏi tệp.
KHÔNG sử dụng tùy chọn này với lệnh nhận hoặc lệnh trong tệp procmailrc của bạn!
Làm như vậy có thể cho phép những người gửi thư rác vượt qua bộ lọc. Tùy chọn này có nghĩa là
được sử dụng với thư rác và tàu tốt các lệnh trong tập lệnh định kỳ
cập nhật cơ sở dữ liệu.
-o điểm gốc
Khiến SpamProbe sử dụng thuật toán tính điểm ban đầu của nó để tạo ra
nhưng có xu hướng tạo ra điểm 0 hoặc 1 cho tất cả các tin nhắn.
-o thẻ đáng ngờ
Khiến SpamProbe quét nội dung của các thẻ “đáng ngờ” để tìm mã thông báo thay vì
chỉ đơn giản là ném chúng ra ngoài. Hiện tại chỉ có thẻ phông chữ được quét nhưng các thẻ khác có thể
được thêm vào danh sách này trong các phiên bản sau.
-o được mã hóa
Khiến SpamProbe đọc mã thông báo một mã trên mỗi dòng thay vì xử lý đầu vào như
định dạng thư. Điều này cho phép người dùng thay thế hoàn toàn SpamProbe tiêu chuẩn
tokenizer nếu họ muốn và thay vào đó sử dụng một số chương trình bên ngoài như một tokenizer.
Trong chế độ này SpamProbe coi một dòng trống để biểu thị phần cuối của một thư
mã thông báo và sự bắt đầu của mã thông báo mới. SpamProbe tính toán một tin nhắn
thông báo dựa trên các dòng văn bản chứa mã thông báo.
Sản phẩm -o tùy chọn có thể được sử dụng nhiều lần và tất cả các tùy chọn được yêu cầu sẽ được áp dụng.
Lưu ý rằng một số tùy chọn có thể xung đột với nhau, trong trường hợp đó, tùy chọn cuối cùng
sẽ được ưu tiên.
-p con số
Thay đổi số từ tối đa cho mỗi cụm từ. Giá trị mặc định là hai. Tăng
giới hạn cải thiện độ chính xác phần nào nhưng tăng kích thước cơ sở dữ liệu. Thí nghiệm chỉ ra
rằng việc tăng vượt quá hai không đáng để tăng thêm chi phí trong không gian.
-P con số
Khiến cho SpamProbe thực hiện xóa tất cả các cụm từ có số lượng rác nhỏ hơn hoặc bằng 2
sau khi mọi tin nhắn số được xử lý. Sử dụng tùy chọn này khi phân loại lớn
thu thập thư rác có thể ngăn không cho cơ sở dữ liệu phát triển quá lớn với chi phí
nhiều thời gian xử lý hơn và có thể mất độ chính xác.
-r con số
Thay đổi số lần một từ / cụm từ có thể xuất hiện trong mảng các từ trên cùng
được sử dụng để tính điểm cho mỗi tin nhắn. Việc cho phép lặp lại làm giảm số lượng
tổng thể các từ (vì một từ duy nhất chiếm nhiều hơn một vị trí) nhưng cho phép các từ
thường xuyên xảy ra trong tin nhắn để có trọng số cao hơn. Nói chung điều này đã được thay đổi
chỉ dành cho mục đích tối ưu hóa.
-R
Khiến cho SpamProbe coi đầu vào là một tin nhắn đơn lẻ và làm cơ sở cho mã thoát của nó
thư đó có phải là thư rác hay không. Mã thoát sẽ là 0 nếu thư là spam
hoặc 1 nếu tin nhắn tốt.
-s con số
SpamProbe duy trì trong bộ nhớ đệm các từ mà nó đã thấy trong các thư trước đó
để giảm I / O đĩa và cải thiện hiệu suất. Theo mặc định, bộ nhớ đệm sẽ chứa nhiều nhất
gần đây đã truy cập 2,500 điều khoản. Số này có thể được thay đổi bằng cách sử dụng -s Lựa chọn. Sử dụng một
kích thước bộ nhớ cache lớn hơn sẽ khiến SpamProbe sử dụng nhiều bộ nhớ hơn và có khả năng
thực hiện ít I / O cơ sở dữ liệu hơn. Giá trị bằng 100,000 khiến SpamProbe sử dụng XNUMX làm
giới hạn hiệu quả có nghĩa là bộ nhớ cache sẽ chỉ được xóa khi thoát chương trình
(trừ khi bạn có các tệp hộp thư thực sự lớn). Bộ nhớ cache không ảnh hưởng đến nhận,
bán phá giá, hoặc xuất khẩu nhưng có tác động đáng kể đến những thứ khác.
-T
Ngoài ra, khiến SpamProbe viết ra các thuật ngữ hàng đầu được liên kết với mỗi thư
đến đầu ra bình thường của nó. Làm việc với tìm thấy tốt, tìm thư rácvà Điểm số.
-v
Khi nó xuất hiện một lần trên dòng lệnh, tùy chọn này yêu cầu SpamProbe viết dài dòng
thông tin trong quá trình xử lý. Khi nó xuất hiện hai lần trên dòng lệnh, tùy chọn này
yêu cầu SpamProbe ghi thông tin gỡ lỗi vào stderr. Điều này có thể hữu ích cho
gỡ lỗi hoặc để xem SpamProbe sử dụng thuật ngữ nào để chấm điểm mỗi email.
-V
In phiên bản và thông tin bản quyền rồi thoát.
-w con số
Thay đổi số lượng từ / cụm từ quan trọng nhất được SpamProbe sử dụng để tính toán
điểm cho mỗi tin nhắn. Nói chung điều này được thay đổi chỉ cho mục đích tối ưu hóa.
-x
Thông thường SpamProbe chỉ sử dụng một số thuật ngữ hàng đầu cố định (như được đặt bởi -w lệnh
tùy chọn dòng) khi cho điểm email. Các -x tùy chọn có thể được sử dụng để cho phép mảng
mở rộng quá kích thước tối đa nếu có nhiều thuật ngữ hơn với xác suất <= 0.1 hoặc> =
0.9.
-X
Một biến thể thú vị về cài đặt tính điểm. Tương đương với việc sử dụng -w5 -r5 -x so
thường chỉ sử dụng các từ có xác suất <= 0.1 hoặc> = 0.9 và từ
tần suất trong email tính rất nhiều vào điểm số. Các thử nghiệm đã chỉ ra rằng điều này
cài đặt có xu hướng an toàn hơn (ít dương tính giả hơn) và có khả năng thu hồi cao hơn (thích hợp
phân loại các thư rác trước đây được ghi là thư rác) mặc dù khả năng dự đoán của nó không
khá tốt như cài đặt mặc định. CẢNH BÁO: Cài đặt này có thể hoạt động tốt nhất với
kho dữ liệu khá lớn, nó chưa được kiểm tra với kho dữ liệu nhỏ nên có thể rất
không chính xác với tổng số ít hơn 1000 tin nhắn.
-Y
Giả sử định dạng hộp thư Berkeley truyền thống, bỏ qua bất kỳ trường Nội dung-Độ dài:.
-7
Yêu cầu SpamProbe bỏ qua bất kỳ ký tự nào có bit quan trọng nhất được đặt thành 1
thay vì ánh xạ chúng thành chữ 'z'.
-8
Yêu cầu SpamProbe lưu trữ tất cả các ký tự ngay cả khi bit quan trọng nhất của chúng được đặt thành
1.
HÀNG
SpamProbe nhận dạng các lệnh sau:
áo choàng tắm giúp đỡ [ lệnh ]
Không có đối số SpamProbe liệt kê tất cả các lệnh hợp lệ. Nếu một hoặc nhiều lệnh
được chỉ định sau từ trợ giúp, SpamProbe sẽ in mô tả chi tiết hơn về
mỗi lệnh.
áo choàng tắm tạo-db
Nếu hiện không có cơ sở dữ liệu nào, SpamProbe sẽ cố gắng tạo một cơ sở dữ liệu và sau đó thoát.
Điều này có thể được sử dụng để khởi động một cài đặt mới. Nói đúng ra lệnh này là
không cần thiết vì thư rác, tàu tốtvà xe lửa lệnh cũng sẽ
tạo cơ sở dữ liệu nếu chưa có nhưng một số người dùng muốn tạo cơ sở dữ liệu dưới dạng
bước cài đặt riêng biệt.
áo choàng tắm tạo-cấu hình
Ghi tệp cấu hình mới có tên spamprobe.hdl vào thư mục cơ sở dữ liệu
(thường là $ HOME / .spamprobe). Mọi tệp cấu hình hiện có sẽ bị ghi đè nên
đảm bảo tạo một bản sao trước khi gọi lệnh này.
áo choàng tắm nhận [ tên tập tin...]
Yêu cầu SpamProbe đọc đầu vào chuẩn của nó (hoặc một tệp được chỉ định sau khi nhận
lệnh) và cho điểm bằng cách sử dụng cơ sở dữ liệu hiện tại. Sau khi tin nhắn đã được ghi điểm
tin nhắn được phân loại là spam hoặc không phải spam và số lượng từ của nó được viết
đến cơ sở dữ liệu thích hợp. Điểm của tin nhắn được viết vào stdout cùng với
từ đơn. Ví dụ:
SPAM 0.9999999 595f0150587edd7b395691964069d7af
GOOD 0.0200000 595f0150587edd7b395691964069d7af
Chuỗi chữ số hex sau điểm số là “thông báo MD5” của tin nhắn, 128 bit
số nhận dạng duy nhất tin nhắn. Thông báo được SpamProbe sử dụng để
nhận ra các tin nhắn mà nó đã xử lý trước đó để nó có thể giữ lời
số lượng nhất quán nếu thư được phân loại lại.
Sử dụng -T tùy chọn bổ sung liệt kê các thuật ngữ được sử dụng để tạo ra điểm số cùng với
số lượng của họ (số lần họ được tìm thấy trong tin nhắn).
áo choàng tắm đào tạo [ tên tập tin...]
Về mặt chức năng giống hệt với nhận ngoại trừ việc cơ sở dữ liệu chỉ được sửa đổi nếu
thông báo "khó" để phân loại. Trong thực tế, điều này có thể làm giảm số lượng
cập nhật cơ sở dữ liệu cho ít nhất 10% tin nhắn nhận được.
áo choàng tắm Điểm số [ tên tập tin...]
Tương tự như nhận ngoại trừ cơ sở dữ liệu không được sửa đổi theo bất kỳ cách nào.
áo choàng tắm tóm tắt [ tên tập tin...]
Tương tự như Điểm số ngoại trừ việc nó in ra một bản tóm tắt ngắn và điểm số cho mỗi tin nhắn.
Điều này có thể hữu ích khi thử nghiệm. Sử dụng -T tùy chọn liệt kê bổ sung các điều khoản được sử dụng
để tạo ra điểm số cùng với số lượng của chúng (số lần chúng được tìm thấy trong
thông điệp).
áo choàng tắm tìm thư rác [ tên tập tin...]
Tương tự như Điểm số ngoại trừ việc nó in một bản tóm tắt ngắn và điểm số cho mỗi tin nhắn
được xác định là thư rác. Điều này có thể hữu ích khi thử nghiệm. Sử dụng -T tùy chọn
bổ sung liệt kê các thuật ngữ được sử dụng để tạo ra điểm số cùng với số lượng của chúng (số
số lần chúng được tìm thấy trong tin nhắn).
áo choàng tắm tìm thấy tốt [ tên tập tin...]
Tương tự như Điểm số ngoại trừ việc nó in một bản tóm tắt ngắn và điểm số cho mỗi tin nhắn
được xác định là tốt. Điều này có thể hữu ích khi thử nghiệm. Sử dụng -T tùy chọn
bổ sung liệt kê các thuật ngữ được sử dụng để tạo ra điểm số cùng với số lượng của chúng (số
số lần chúng được tìm thấy trong tin nhắn).
áo choàng tắm xe lửa {SPAM | TỐT tên tập tin ...} ...
Cố gắng xây dựng hiệu quả cơ sở dữ liệu từ tất cả các tệp được đặt tên. Bạn có thể chỉ định
một hoặc nhiều tệp của mỗi loại. Trước mỗi bộ tên tệp, bạn phải bao gồm
lời SPAM or TỐT để cho biết loại thư nào được chứa trong các tệp theo sau
trên dòng lệnh.
Trường hợp của SPAM và TỐT từ khóa là quan trọng. Bất kỳ số lượng tên tệp nào cũng có thể là
được chỉ định giữa các từ khóa. Định dạng dòng lệnh rất linh hoạt. Bạn có thể
sử dụng lệnh tìm trong các dấu gạch ngược để xử lý toàn bộ cây thư mục của tệp. Vì
thí dụ:
spamprobe tự động đào tạo Thư rác SPAM / * TỐT `find hams -type f`
SpamProbe quét trước các tệp để xác định số lượng email của mỗi loại tồn tại và sau đó
đào tạo về hams và thư rác theo một trình tự ngẫu nhiên để cân bằng dòng tiền của mỗi loại để
để lệnh tàu có thể hoạt động hiệu quả nhất. Ví dụ: nếu bạn có 400 hams và
400 thư rác, tự động đào tạo thường sẽ xử lý một thư rác, sau đó một thư rác, v.v. Nếu bạn có
4000 thư rác và 400 hams sau đó tự động đào tạo thường sẽ xử lý 10 thư rác, sau đó một ham,
và vv
Vì lệnh này có thể sẽ mất nhiều thời gian để chạy, nên thường được mong muốn sử dụng
nó với tùy chọn -v để xem thông tin tiến trình khi các thông báo được xử lý.
spamprobe -v tự động đào tạo thư rác SPAM / * GOOD hams / *
áo choàng tắm tốt [ tên tập tin...]
Quét từng tệp (hoặc stdin nếu không có tệp nào được chỉ định) và phân loại lại mọi email trong
tập tin không phải là thư rác. Các cơ sở dữ liệu được cập nhật một cách thích hợp. Tin nhắn trước đây
được phân loại là tốt (được công nhận bằng cách sử dụng thông báo MD5 của họ) bị bỏ qua. Tin nhắn
trước đây được phân loại là thư rác được phân loại lại là tốt.
áo choàng tắm tàu tốt [ tên tập tin...]
Về mặt chức năng giống hệt với tốt ngoại trừ việc nó chỉ cập nhật cơ sở dữ liệu cho
thư được phân loại không chính xác (tức là được phân loại là thư rác) hoặc được
"Khó" để phân loại. Trong thực tế, điều này có thể giảm số lượng cập nhật cơ sở dữ liệu xuống như
ít nhất là 10% tin nhắn.
áo choàng tắm thư rác [ tên tập tin...]
Quét từng tệp (hoặc stdin nếu không có tệp nào được chỉ định) và phân loại lại mọi email trong
tập tin dưới dạng thư rác. Các cơ sở dữ liệu được cập nhật một cách thích hợp. Tin nhắn đã được phân loại trước đây
là thư rác (được công nhận bằng cách sử dụng thông báo id tin nhắn MD5 của họ) bị bỏ qua. Tin nhắn
trước đây được phân loại là tốt được phân loại lại là thư rác.
áo choàng tắm thư rác [ tên tập tin...]
Về mặt chức năng giống hệt với thư rác ngoại trừ việc nó chỉ cập nhật cơ sở dữ liệu cho
thư được phân loại không chính xác (tức là được phân loại là tốt) hoặc được
"Khó" để phân loại. Trong thực tế, điều này có thể giảm số lượng cập nhật cơ sở dữ liệu xuống như
ít nhất là 10% tin nhắn.
áo choàng tắm tẩy [ tên tập tin...]
Quét từng tệp (hoặc stdin nếu không có tệp nào được chỉ định) và xóa số hạng của nó khỏi
kho dữ liệu. Tin nhắn không có trong cơ sở dữ liệu (được nhận dạng bằng MD5 của chúng
thông báo id tin nhắn) bị bỏ qua.
áo choàng tắm dọn dẹp [ rác_count [ tuổi_tối đa ]]
Quét cơ sở dữ liệu và xóa tất cả các điều khoản với rác_count hoặc ít hơn (mặc định 2)
đã không có số đếm của họ được sửa đổi trong ít nhất tuổi_tối đa ngày (mặc định là 7). Bạn có thể
chỉ định nhiều cặp số / tuổi trên một dòng lệnh nhưng phải chỉ định cả hai
đếm và tuổi cho tất cả trừ lần đếm cuối cùng. Điều này nên được chạy định kỳ để giữ
cơ sở dữ liệu không ngừng phát triển.
áo choàng tắm purge [ rác_count ]
Tương tự như dọn dẹp nhưng buộc xóa ngay lập tức tất cả các cụm từ với tổng số
ít hơn rác_count (mặc định là 2) bất kể đã bao lâu rồi
đã sửa đổi (tức là ngay cả khi chúng mới được thêm vào ngày hôm nay). Điều này có thể hữu ích ngay lập tức
sau khi phân loại một hộp thư lớn gồm thư rác lịch sử hoặc email tốt để nhường chỗ cho
đợt tiếp theo.
áo choàng tắm điều khoản thanh trừng biểu thức chính quy
Tương tự như thanh lọc ngoại trừ việc nó loại bỏ khỏi cơ sở dữ liệu tất cả các thuật ngữ phù hợp với
biểu thức chính quy được chỉ định. Hãy cẩn thận với lệnh này vì nó có thể xóa
nhiều điều khoản hơn bạn mong đợi. Sử dụng đổ với cùng biểu thức chính quy trước khi chạy cái này
để xem chính xác những gì sẽ bị xóa.
áo choàng tắm chỉnh sửa điều khoản kỳ hạn tốt_đếm thư rác
Có thể được sử dụng để đặt cụ thể số lượng tốt và spam của một cụm từ. Cho dù đây là
thực sự hữu ích là điều đáng nghi ngờ nhưng nó được cung cấp vì lợi ích hoàn chỉnh.
áo choàng tắm đổ [ biểu thức chính quy ]
In nội dung của cơ sở dữ liệu đếm từ một từ trên mỗi dòng ở dạng con người có thể đọc được
định dạng với xác suất thư rác, số lượng tốt, số lượng thư rác, cờ và từ trong các cột
ngăn cách nhau bởi khoảng trắng. Khi được đưa ra, biểu thức chính quy đối số giới hạn đầu ra đối với kết quả phù hợp
thẻ.
áo choàng tắm token hóa [ tên tập tin ]
In các mã thông báo được tìm thấy trong tệp một từ trên mỗi dòng ở định dạng con người có thể đọc được với
xác suất thư rác, số lượng tốt, số lượng thư rác, số lượng tin nhắn và từ trong các cột được phân tách
bởi khoảng trắng. Các điều khoản được liệt kê theo thứ tự mà chúng gặp phải trong
thông điệp. Lệnh sắp xếp unix tiêu chuẩn có thể được sử dụng để sắp xếp các điều khoản như mong muốn.
áo choàng tắm xuất khẩu
Tương tự như đổ lệnh nhưng in các số đếm và các từ được phân tách bằng dấu phẩy
định dạng với các từ được bao quanh bởi dấu ngoặc kép. Điều này có thể hữu ích hơn cho
nhập vào một số cơ sở dữ liệu.
áo choàng tắm nhập khẩu
Đọc các tệp được chỉ định phải chứa dữ liệu xuất được ghi bởi xuất khẩu
chỉ huy. Các điều khoản và số lượng từ tệp này được thêm vào cơ sở dữ liệu. Điều này có thể là
được sử dụng để chuyển đổi cơ sở dữ liệu từ phiên bản trước.
VÍ DỤ
Bên ngoài Mã thông báo
Giả sử bạn có tokenizer tokenize.pl, trong tệp procmailrc của bạn, bạn có thể sử dụng:
ĐIỂM = | tokenize.pl | / usr / bin / spamprobe -o tàu mã hóa
Truy vấn Hộp thư
Để liệt kê tất cả các từ từ “tốt nhất” đến “kém tốt nhất”, hãy sử dụng lệnh này:
mã hóa áo choàng spa tên tập tin | sắp xếp -k 1n -k 2nr
Để liệt kê tất cả các từ từ “nhiều spam nhất” đến “ít spam nhất”, hãy sử dụng lệnh này:
mã hóa áo choàng spa tên tập tin | sắp xếp -k 1nr -k 3nr
Truy vấn Sản phẩm Cơ sở dữ liệu
Sử dụng áo choàng tắm đổ để có được danh sách mã thông báo có thể đọc được của con người trong cơ sở dữ liệu của SpamProbe.
Berkeley DB sắp xếp các thuật ngữ theo thứ tự bảng chữ cái; đầu ra đường ống vào unix tiêu chuẩn loại(1)
lệnh có thể được sử dụng để sắp xếp các điều khoản như mong muốn.
Để liệt kê tất cả các từ trong cơ sở dữ liệu của SpamProbe từ “tốt nhất” đến “kém tốt nhất”, hãy sử dụng
chỉ huy:
bãi spamprobe | sắp xếp -k 1n -k 2nr
Để liệt kê tất cả các từ từ “nhiều spam nhất” đến “ít spam nhất”, hãy sử dụng lệnh này:
bãi spamprobe | sắp xếp -k 1nr -k 3nr
Theo tùy chọn, bạn có thể chỉ định một biểu thức chính quy. Nếu được chỉ định SpamProbe sẽ chỉ kết xuất
các điều khoản phù hợp với biểu thức chính quy. Ví dụ:
spamprobe dump 'tài chính'
spamprobe dump '\\ bfinance \\ b'
spamprobe dump 'HSubject _. * Finance'
DATABASE DUY TRÌ
Khi không có điều khoản nào được thực hiện, cơ sở dữ liệu của SpamProbe sẽ không ngừng phát triển trong khi phân loại
tin nhắn. Để loại bỏ các mục cũ không sử dụng, bạn nên chạy dọn dẹp thường xuyên
cơ sở, dễ dàng nhất từ cron(1).
# hàng ngày lúc 00:03
# xóa các mục nhập có số lượng <= 2 không có
# đã được chạm vào trong 2 tuần qua từ
Cơ sở dữ liệu của # spamprobe
3 0 * * * / usr / bin / spamprobe dọn dẹp 2 14
Ngoài ra, bạn có thể muốn sử dụng số lượng cao hơn nhiều (1000 trong ví dụ này) cho các điều khoản
đã không được nhìn thấy trong khoảng sáu tháng:
3 0 * * * / home / brian / bin / spamprobe dọn dẹp 1000 180 2 14
Do cách hoạt động của Berkeley DB, tệp cơ sở dữ liệu sẽ không thực sự thu nhỏ, nhưng
các điều khoản mới được thêm vào sẽ có thể sử dụng không gian trước đó bị chiếm dụng bởi bất kỳ điều khoản nào đã bị xóa
do đó tốc độ phát triển của tệp sẽ chậm hơn đáng kể nếu lệnh này được sử dụng.
Để thực sự thu nhỏ cơ sở dữ liệu, bạn có thể tạo một cơ sở dữ liệu mới bằng tiện ích Berkeley DB
chương trình db_dump(1) db_load(1) hoặc SpamProbenhập khẩu và xuất khẩu các lệnh. Vì
thí dụ:
cd ~
mkdir new.spamprobe
xuất khẩu áo choàng tắm | áo choàng tắm -d ~ / new.spamprobe nhập khẩu
mv .spamprobe cũ.spamprobe
mv mới.spamprobe .spamprobe
Sản phẩm -P tùy chọn cũng có thể được sử dụng để giới hạn tốc độ phát triển của cơ sở dữ liệu khi nhập
một số lượng lớn các email. Ví dụ: nếu bạn muốn phân loại 1000 email và muốn
SpamProbe để xóa các cụm từ hiếm sau mỗi 100 thư sử dụng một lệnh như:
spamprobe -P 100 goodmailboxname tốt
Sử dụng -P làm chậm quá trình phân loại nhưng có thể tránh được nhu cầu sử dụng xuất khẩu/nhập khẩu
lừa. Lưu ý rằng -P chỉ có ý nghĩa khi phân loại một số lượng lớn thư.
Bạn có thể muốn buộc một từ cụ thể phải rất spam hoặc cực kỳ tốt:
thuật ngữ chỉnh sửa thăm dò thư rác xanax 0 1000000
thuật ngữ chỉnh sửa spamprobe debian 10000000 0
Ít nhất thì việc ghim các cụm từ tốt có xu hướng giúp ích cho những người gửi thư rác.
Sử dụng spamprobe trực tuyến bằng các dịch vụ của onworks.net