sa-learnp - Online di Cloud

Ini adalah perintah sa-learnp yang dapat dijalankan di penyedia hosting gratis OnWorks menggunakan salah satu dari beberapa stasiun kerja online gratis kami seperti Ubuntu Online, Fedora Online, emulator online Windows atau emulator online MAC OS

PROGRAM:

NAMA


sa-learn - latih pengklasifikasi Bayesian SpamAssassin

RINGKASAN


belajar-belajar [opsi] [file]...

belajar-belajar [opsi] --dump [ semua | data | sihir]

Pilihan:

--ham Pelajari pesan sebagai ham (non-spam)
--spam Pelajari pesan sebagai spam
--lupa Lupa pesan
--use-ignores Gunakan bayes_ignore_from dan bayes_ignore_to
--sync Sinkronkan database dan jurnal jika diperlukan
--force-expire Memaksa sinkronisasi database dan menjalankan kedaluwarsa
--dbpath Mengizinkan penggantian baris perintah (dalam bentuk bayes_path)
untuk tempat membaca Bayes DB dari
--dump [all|data|magic] Menampilkan konten database Bayes
Mengambil argumen opsional untuk apa yang akan ditampilkan
--regexp Hanya untuk dump, tentukan token mana yang akan
dump berdasarkan ekspresi reguler.
-f file, --folders=file Baca daftar file/direktori dari file
--dir Diabaikan; kompatibilitas historis
--file Diabaikan; kompatibilitas historis
--mbox Sumber input dalam format mbox
--mbx Sumber input dalam format mbx
--max-size Lewati pesan yang lebih besar dari b byte;
default ke 256 KB, 0 menyiratkan tidak ada batas
--showdots Tampilkan kemajuan menggunakan titik
--progress Tampilkan kemajuan menggunakan bilah kemajuan
--no-sync Lewati sinkronisasi database dan jurnal
setelah belajar
-L, --local Beroperasi secara lokal, tidak ada akses jaringan
--import Migrasi data dari versi lama/non DB_File
database berbasis
--clear Hapus database yang ada
--backup Backup, ke STDOUT, database yang ada
--memulihkan Pulihkan database dari nama file
-u nama pengguna, --namapengguna=namapengguna
Ganti nama pengguna yang diambil dari runtime
lingkungan, digunakan dengan SQL
-C jalur, --configpath=path, --config-file=path
Jalur ke direktori konfigurasi standar
-p preferensi, --prefspath=file, --prefs-file=file
Setel file preferensi pengguna
--siteconfigpath=path Path untuk konfigurasi situs
(default: /etc/spamssassin)
--cf='config line' Baris konfigurasi tambahan
-D, --debug [area=n,...] Cetak pesan debug
-V, --version Versi cetak
-h, --help Mencetak pesan penggunaan

DESKRIPSI


Mengingat pilihan khas email masuk Anda yang diklasifikasikan sebagai spam atau ham (non-spam), ini
alat akan memberi makan setiap email ke SpamAssassin, memungkinkannya untuk 'mempelajari' tanda-tanda apa yang mungkin terjadi
berarti spam, dan yang kemungkinan besar berarti ham.

Cukup jalankan perintah ini sekali untuk setiap folder email Anda, dan itu akan ''belajar'' dari
surat di dalamnya.

Perhatikan bahwa gaya csh menggelembung dalam nama folder surat didukung; dengan kata lain,
mencantumkan nama folder sebagai "*" akan memindai setiap folder yang cocok. Lihat
"Mail::SpamAssassin::ArchiveIterator" untuk lebih jelasnya.

SpamAssassin mengingat pesan email mana yang telah dipelajarinya, dan tidak akan mempelajarinya kembali
pesan-pesan itu lagi, kecuali jika Anda menggunakan --lupa pilihan. Pesan dipelajari sebagai spam akan
memiliki markup SpamAssassin dihapus, dengan cepat.

Jika Anda membuat kesalahan dan memindai email sebagai ham saat itu adalah spam, atau sebaliknya, jalankan kembali
perintah ini dengan klasifikasi yang benar, dan kesalahan akan diperbaiki.
SpamAssassin akan otomatis 'melupakan' indikasi sebelumnya.

Pengguna "spamd" yang ingin melakukan pelatihan jarak jauh, melalui jaringan, harus menyelidiki
sakelar "spamc -L".

PILIHAN


--daging
Pelajari pesan masukan sebagai ham. Jika sebelumnya Anda telah mempelajari salah satu pesan
sebagai spam, SpamAssassin akan melupakannya terlebih dahulu, lalu mempelajarinya kembali sebagai ham.
Atau, jika sebelumnya Anda telah mempelajarinya sebagai ham, kali ini akan dilewati
sekitar. Jika pesan telah disaring melalui SpamAssassin, pelajar
akan mengabaikan modifikasi apa pun yang mungkin telah dibuat SpamAssassin.

--spam
Pelajari pesan masukan sebagai spam. Jika sebelumnya Anda telah mempelajari salah satu dari
pesan sebagai ham, SpamAssassin akan melupakannya terlebih dahulu, lalu mempelajarinya kembali sebagai spam.
Atau, jika sebelumnya Anda telah mempelajarinya sebagai spam, kali ini akan dilewati
sekitar. Jika pesan telah disaring melalui SpamAssassin, pelajar
akan mengabaikan modifikasi apa pun yang mungkin telah dibuat SpamAssassin.

--folder=nama file, -f nama file
sa-learn akan membaca daftar folder dari file yang ditentukan, satu folder per baris
dalam file. Jika folder diawali dengan "ham:type:" atau "spam:type:", sa-learn
akan mempelajari folder itu dengan tepat, jika tidak, folder akan dianggap sebagai
jenis yang ditentukan oleh --daging or --spam.

"type" di atas adalah opsional, tetapi sama dengan standar untuk ArchiveIterator: mbox,
mbx, dir, file, atau detect (default jika tidak ditentukan).

--kotak
sa-learn akan membaca dalam file yang berisi email yang akan dipelajari, dan akan
memprosesnya dalam format mbox (satu atau lebih email per file).

--mbx
sa-learn akan membaca dalam file yang berisi email yang akan dipelajari, dan akan
memprosesnya dalam format mbx (satu atau lebih email per file).

--gunakan-abaikan
Jangan pelajari pesan jika alamat dari cocok dengan item file konfigurasi
"bayes_ignore_from" atau alamat ke cocok dengan "bayes_ignore_to". Pilihannya mungkin
digunakan ketika belajar dari file besar pesan dari mana pesan spam hammy atau
pesan ham spam belum dihapus.

--sinkronisasi
Sinkronisasi jurnal dan database. Setelah berhasil menyinkronkan database dengan
entri dalam jurnal, file jurnal dihapus.

--force-kedaluwarsa
Memaksa upaya kedaluwarsa, terlepas dari apakah itu perlu atau tidak. Catatan:
Ini tidak berarti token apa pun akan benar-benar kedaluwarsa. Silakan lihat bagian EXPIRATION
di bawah.

Catatan: "--force-expire" juga menyebabkan data jurnal disinkronkan ke Bayes
database.

--lupa
Lupakan pesan yang diberikan sebelumnya dipelajari.

--jalur db
Mengizinkan penggantian baris perintah dari bayes_path opsi konfigurasi.

--membuang Option
Menampilkan konten database Bayes. Tanpa pilihan atau dengan semua pilihan,
semua token ajaib dan token data akan ditampilkan. sihir hanya akan menampilkan sihir
token, dan data hanya akan menampilkan token data.

Bisa juga menggunakan --regexp RE opsi untuk menentukan token mana yang akan ditampilkan berdasarkan a
ekspresi reguler.

--jernih
Hapus database Bayes yang ada dengan menghapus semua jejak database.

PERINGATAN: Ini merusak dan harus digunakan dengan hati-hati.

--cadangan
Melakukan dump database Bayes dalam format yang dapat dibaca oleh mesin/manusia.

Dump akan menyertakan token dan data yang terlihat. Sangat cocok untuk input kembali ke
--mengembalikan perintah.

--memulihkan=nama file
Melakukan pemulihan database Bayes yang ditentukan oleh nama file.

PERINGATAN: Ini adalah operasi yang merusak, data Bayes sebelumnya akan dihapus.

-h, --membantu
Cetak pesan bantuan dan keluar.

-u nama pengguna, --nama pengguna=nama pengguna
Jika ditentukan nama pengguna ini akan menggantikan nama pengguna yang diambil dari runtime
lingkungan. Anda dapat menggunakan opsi ini untuk menentukan pengguna dalam konfigurasi pengguna virtual
saat menggunakan SQL sebagai backend Bayes.

CATATAN: Opsi ini tidak akan berubah ke yang diberikan nama pengguna, itu hanya akan mencoba untuk bertindak
atas nama pengguna tersebut. Karena itu, Anda harus memiliki izin yang tepat untuk
dapat mengubah file yang dimiliki oleh nama pengguna. Dalam kasus SQL ini umumnya bukan
masalah.

-C path, --configpath=path, --file konfigurasi=path
Gunakan jalur yang ditentukan untuk menemukan file konfigurasi terdistribusi. Abaikan
direktori default (biasanya "/usr/share/spamassassin" atau yang serupa).

--siteconfigpath=path
Gunakan jalur yang ditentukan untuk menemukan file konfigurasi khusus situs. Abaikan
direktori default (biasanya "/etc/spamassassin" atau serupa).

--cf='config garis'
Tambahkan baris konfigurasi tambahan langsung dari baris perintah, diuraikan setelah
file konfigurasi dibaca. Beberapa --lih argumen dapat digunakan, dan masing-masing akan menjadi
dianggap sebagai garis konfigurasi yang terpisah.

-p preferensi, --prefspath=preferensi, --pref-file=preferensi
Baca preferensi skor pengguna dari preferensi (biasanya "$HOME/.spamassassin/user_prefs").

--kemajuan
Mencetak bilah kemajuan (ke STDERR) yang menunjukkan kemajuan saat ini. Dalam kasus di mana tidak
terminal yang valid ditemukan opsi ini akan berperilaku sangat mirip dengan opsi --showdots.

-D [daerah,...], --debug [daerah,...]
Menghasilkan keluaran debug. Jika tidak ada area yang terdaftar, semua informasi debug adalah
dicetak. Output diagnostik juga dapat diaktifkan untuk setiap area secara individual; daerah adalah
area kode untuk instrumen. Misalnya, untuk menghasilkan keluaran diagnostik pada bayes,
belajar, dan dns, gunakan:

spamassassin -D bayes,belajar,dns

Untuk informasi lebih lanjut tentang area mana (juga dikenal sebagai saluran) yang tersedia, silakan
lihat dokumentasinya di:

C<http://wiki.apache.org/spamassassin/DebugChannels>

Pesan informasi berprioritas lebih tinggi yang cocok untuk masuk secara normal
keadaan tersedia dengan area "info".

--tidak ada sinkronisasi
Lewati langkah sinkronisasi lambat yang biasanya terjadi setelah mengubah basis data
entri. Jika Anda berencana untuk belajar dari banyak folder sekaligus, atau belajar banyak
pesan individu satu per satu, lebih cepat menggunakan sakelar ini dan menjalankan "sa-belajar
--sync" setelah semua folder dipindai.

Klarifikasi: Keadaan --tidak ada sinkronisasi mengesampingkan bayes_learn_to_journal
opsi konfigurasi. Jika tidak ditentukan, sa-learn akan belajar ke database secara langsung.
Jika ditentukan, sa-learn akan belajar ke file jurnal.

Catatan: --sinkronisasi dan --tidak ada sinkronisasi dapat ditentukan pada baris perintah yang sama, yang sedikit
membingungkan. Dalam hal ini, --tidak ada sinkronisasi opsi diabaikan karena tidak ada pembelajaran
operasi.

-L, --lokal
Jangan melakukan akses jaringan apa pun saat mempelajari detail tentang pesan email.
Ini akan mempercepat proses pembelajaran, tetapi mungkin menghasilkan akurasi yang sedikit lebih rendah.

Perhatikan bahwa ini saat ini diabaikan, karena versi terbaru dari SpamAssassin tidak akan
melakukan akses jaringan sambil belajar; tapi versi masa depan mungkin.

--impor
Jika sebelumnya Anda menggunakan pelajar Bayesian SpamAssassin tanpa modul "DB_File"
diinstal, itu akan membuat file dalam format lain, seperti "GDBM_File",
"NDBM_File", atau "SDBM_File". Sakelar ini memungkinkan Anda untuk memigrasikan data lama itu ke
format "DB_File". Ini akan menimpa data apa pun yang saat ini ada di "DB_File".

Bisa juga digunakan dengan --jalur db path opsi untuk menentukan lokasi Bayes
file untuk digunakan.

MIGRASI


Sekarang ada beberapa modul penyimpanan backend yang tersedia untuk menyimpan data bayesian pengguna.
Karena itu, Anda mungkin ingin bermigrasi dari satu backend ke backend lainnya. Berikut adalah prosedur sederhana
untuk bermigrasi dari satu backend ke backend lainnya.

Perhatikan bahwa jika Anda memiliki database pengguna individu, Anda harus melakukan hal serupa
prosedur untuk masing-masing dari mereka.

sa-belajar --sync
Ini akan menyinkronkan semua entri jurnal yang beredar

sa-learn --backup > backup.txt
Ini akan menyimpan semua data Bayes Anda ke file teks biasa.

sa-belajar --clear
Ini opsional, tetapi bagus untuk dilakukan untuk menghapus database lama.

Ulangi!
Pada titik ini, jika Anda memiliki banyak database, Anda harus melakukan prosedur di atas
untuk masing-masing. (yaitu setiap basis data pengguna perlu dicadangkan sebelum melanjutkan.)

Beralih backend
Setelah Anda mencadangkan semua basis data, Anda dapat memperbarui konfigurasi Anda untuk yang baru
backend basis data. Ini akan melibatkan setidaknya opsi konfigurasi bayes_store_module dan
mungkin melibatkan beberapa opsi konfigurasi tambahan tergantung pada apa yang diperlukan oleh
modul. (Misalnya, Anda mungkin perlu mengonfigurasi database SQL.)

sa-pelajari --restore backup.txt
Sekali lagi, Anda perlu melakukan ini untuk setiap database.

Jika Anda bermigrasi ke SQL, Anda dapat menggunakan -u pilihan di sa-belajar untuk
mengisi database setiap pengguna. Jika tidak, Anda harus menjalankan sa-learn sebagai pengguna yang database
Anda memulihkan.

PENGANTAR UNTUK BAYESIAN PENYARINGAN


(Terima kasih kepada Michael Bell untuk bagian ini!)

Untuk deskripsi yang lebih panjang tentang cara kerjanya, buka http://www.paulgraham.com/ dan melihat
"Rencana Spam". Ini cukup mudah dibaca, bahkan jika statistik membuat saya keluar
gatal-gatal.

Versi pendek semi-tidak akurat: Diberikan pelatihan, mesin heuristik spam dapat mengambil
sebagian besar kata "spam" dan "hammy" dan menerapkan analisis probabilistik. Selanjutnya, setelah diberikan
dasar untuk analisis, mesin dapat terus belajar secara iteratif dengan menerapkan keduanya
aturan non-Bayesian dan Bayesian bersama-sama menciptakan "kecerdasan" yang berkembang.

SpamAssassin 2.50 dan yang lebih baru mendukung analisis spam Bayesian, dalam bentuk BAYES
aturan. Ini adalah fitur baru, cukup kuat, dan dinonaktifkan sampai ada cukup pesan
telah dipelajari.

Kelebihan analisis spam Bayesian:

Dapat sangat mengurangi positif palsu dan negatif palsu.
Ia belajar dari email Anda, sehingga disesuaikan dengan aliran email unik Anda.

Setelah mulai belajar, ia dapat terus belajar dari SpamAssassin dan meningkat seiring waktu.

Dan kontra:

Jumlah pesan yang layak diperlukan sebelum hasilnya berguna untuk ham/spam
penentuan.
Sulit untuk menjelaskan mengapa sebuah pesan ditandai atau tidak sebagai spam.
yaitu: aturan langsung, yang cocok, katakanlah, "VIAGRA" mudah dimengerti. Jika
menghasilkan positif palsu atau negatif palsu, cukup mudah untuk memahami mengapa.

Dengan analisis Bayesian, itu semua probabilitas - "karena masa lalu mengatakan itu mungkin
karena ini termasuk dalam distribusi probabilistik yang umum untuk spam sebelumnya di sistem Anda".
Katakan itu kepada pengguna Anda! Katakan itu kepada klien ketika dia bertanya "apa yang bisa saya lakukan untuk
ubah ini". (Omong-omong, jawaban dalam kasus ini adalah "gunakan daftar putih".)

Ini akan memakan ruang disk dan memori.
Basis data yang dikelolanya membutuhkan cukup banyak sumber daya untuk disimpan dan digunakan.

MENDAPATKAN DIMULAI


Masih tertarik? Oke, inilah panduan untuk membuatnya berfungsi.

Pertama, ikhtisar tingkat tinggi:

Buat sampel ham dan spam yang signifikan.
Saya sarankan masing-masing beberapa ribu, ditempatkan di direktori atau kotak surat SPAM dan HAM.
Ya, Anda HARUS menyortir ini - jika tidak, hasilnya tidak akan jauh lebih baik daripada
SpamAssassin sendiri. Verifikasi spam/haminess dari SETIAP pesan. kamu adalah
didesak untuk menghindari penggunaan corpus (sampel) yang tersedia untuk umum - ini harus diambil dari
Server email ANDA, jika ingin berguna secara statistik. Jika tidak, hasilnya mungkin
cukup miring.

Gunakan alat ini untuk mengajari SpamAssassin tentang sampel ini, seperti:
sa-learn --spam /path/ke/spam/folder
sa-learn --ham /path/ke/ham/folder
...

Biarkan SpamAssassin melanjutkan, mempelajari banyak hal. Ketika menemukan ham dan spam itu akan menambahkan
"token menarik" ke database.

Jika Anda membutuhkan SpamAssassin untuk melupakan pesan tertentu, gunakan --lupa .
Ini dapat diterapkan pada ham atau spam yang telah melewati belajar-belajar proses.
Ini sedikit palu, sungguh, menurunkan bobot token tertentu dalam hal itu
pesan (hanya jika pesan itu telah diproses sebelumnya).

Belajar dari pesan tunggal menggunakan perintah seperti ini:
sa-learn --ham --pesan surat tanpa sinkronisasi

Ini berguna untuk mengikat kunci di agen pengguna email Anda. Ini sangat cepat, seperti semua
hal-hal yang memakan waktu ditangguhkan sampai Anda menjalankan dengan opsi "--sync".

Pembelajaran otomatis diaktifkan secara default
Jika Anda tidak memiliki kumpulan surat yang disimpan untuk dipelajari, Anda dapat membiarkan SpamAssassin
otomatis mempelajari email yang Anda terima. Jika Anda belajar otomatis dari awal,
jumlah email yang Anda terima akan menentukan berapa lama aturan BAYES_* berlaku
diaktifkan.

EFEKTIF PELATIHAN


Filter pembelajaran membutuhkan pelatihan agar efektif. Jika Anda tidak melatih mereka, mereka tidak akan
kerja. Selain itu, Anda perlu melatih mereka dengan pesan baru secara teratur agar mereka tetap up-to-
tanggal, atau data mereka akan menjadi basi dan berdampak pada akurasi.

Anda perlu berlatih dengan kedua spam dan surat ham. Satu jenis surat saja tidak akan ada
efek.

Perhatikan bahwa jika folder email Anda berisi hal-hal seperti spam yang diteruskan, diskusi tentang spam,
menangkap aturan, dll, ini akan menyebabkan masalah. Anda harus menghindari pemindaian pesan-pesan itu
jika memungkinkan. (Cara mudah untuk melakukannya adalah dengan memindahkannya, ke dalam folder yang bukan
dipindai.)

Jika pesan yang Anda pelajari telah disaring melalui SpamAssassin,
pembelajar akan mengkompensasi ini. Akibatnya, ia mempelajari seperti apa tampilan setiap pesan
jika Anda telah menjalankan "spamassassin -d" sebelumnya.

Hal lain yang perlu diperhatikan, adalah biasanya Anda harus berlatih dengan setidaknya 1000
pesan spam, dan 1000 pesan ham, jika memungkinkan. Lebih banyak lebih baik, tapi semuanya berakhir
sekitar 5000 pesan tidak meningkatkan akurasi secara signifikan dalam pengujian kami.

Berhati-hatilah agar Anda berlatih dari sumber yang sama -- misalnya, jika Anda berlatih tentang spam lama,
tetapi surat ham baru, maka pengklasifikasi akan berpikir bahwa surat dengan cap tanggal lama adalah
kemungkinan besar spam.

Perlu juga dicatat bahwa pelatihan dengan jumlah ham yang sangat kecil, akan menghasilkan
hasil yang mengerikan. Anda harus bertujuan untuk berlatih dengan setidaknya jumlah yang sama (atau lebih jika
mungkin!) dari data ham daripada spam.

Secara berkelanjutan, yang terbaik adalah terus melatih filter untuk memastikan filter tetap segar
data untuk bekerja dari. Ada berbagai cara untuk melakukan ini:

1. Pembelajaran yang diawasi
Ini berarti menyimpan salinan semua atau sebagian besar email Anda, dipisahkan menjadi spam dan ham
tumpukan, dan pelatihan ulang secara berkala menggunakan itu. Ini menghasilkan hasil terbaik, tapi
membutuhkan lebih banyak pekerjaan dari Anda, pengguna.

(Cara mudah untuk melakukannya adalah dengan membuat folder baru untuk pesan 'dihapus',
dan alih-alih menghapusnya dari folder lain, cukup pindahkan saja ke sana.
Kemudian simpan semua spam di folder terpisah dan jangan pernah menghapusnya. Selama kamu ingat
untuk memindahkan email yang salah diklasifikasikan ke dalam kumpulan folder yang benar, cukup mudah untuk mengikutinya
hingga saat ini.)

2. Pembelajaran tanpa pengawasan dari klasifikasi Bayesian
Cara lain untuk melatih adalah dengan merangkai hasil pengklasifikasi Bayesian kembali ke dalam
pelatihan, sehingga memperkuat keputusannya sendiri. Ini hanya aman jika Anda kemudian berlatih kembali
itu berdasarkan kesalahan yang Anda temukan.

SpamAssassin tidak mendukung metode ini, karena hasil eksperimen yang sangat
menunjukkan bahwa itu tidak bekerja dengan baik, dan karena Bayes hanya satu bagian dari hasil
skor yang disajikan kepada pengguna (sementara Bayes mungkin telah membuat keputusan yang salah tentang a
mail, mungkin telah ditimpa oleh sistem lain).

3. Pembelajaran tanpa pengawasan dari aturan SpamAssassin
Juga disebut 'belajar otomatis' di SpamAssassin. Berdasarkan analisis statistik dari
Tingkat keberhasilan SpamAssassin, kami dapat melatih database Bayesian secara otomatis dengan a
tingkat keyakinan tertentu bahwa data pelatihan kami akurat.

Ini harus dilengkapi dengan beberapa pelatihan yang diawasi sebagai tambahan, jika memungkinkan.

Ini adalah default, tetapi dapat dimatikan dengan mengatur konfigurasi SpamAssassin
parameter "bayes_auto_learn" ke 0.

4. Pelatihan berbasis kesalahan
Ini berarti pelatihan pada sejumlah kecil email, kemudian hanya pelatihan pada pesan yang
SpamAssassin salah mengklasifikasikan. Ini berhasil, tetapi butuh waktu lebih lama untuk melakukannya dengan benar
daripada sesi pelatihan penuh.

Gunakan sa-learnp online menggunakan layanan onworks.net



Program online Linux & Windows terbaru