Angielskifrancuskihiszpański

Ulubiona usługa OnWorks

spamoracle - Online w chmurze

Uruchom spamoracle w darmowym dostawcy hostingu OnWorks przez Ubuntu Online, Fedora Online, emulator online Windows lub emulator online MAC OS

To jest polecenie spamoracle, które można uruchomić w darmowym dostawcy usług hostingowych OnWorks przy użyciu jednej z wielu naszych bezpłatnych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online systemu Windows lub emulator online MAC OS

PROGRAM:

IMIĘ


spamoracle — narzędzie do klasyfikacji spamu

STRESZCZENIE


spamorakuł [-konfiguracja conf] [-f baza danych] znak [ skrzynka pocztowa ... ]

spamorakuł [-konfiguracja conf] [-f baza danych] Dodaj [-v] -spam Skrzynka spam ... -dobry dobre pudełko ...

spamorakuł [-konfiguracja conf] [-f baza danych] test [- min prawd] [-maks. prawd] [ skrzynka pocztowa ... ]

spamorakuł [-konfiguracja conf] [-f baza danych] stan [ skrzynka pocztowa ... ]

spamorakuł [-konfiguracja conf] [-f baza danych] podstęp regexp ...

spamorakuł [-konfiguracja conf] [-f baza danych] backup > plik kopii zapasowej

spamorakuł [-konfiguracja conf] [-f baza danych] przywracać < plik kopii zapasowej

spamorakuł [-konfiguracja conf] [-f baza danych] słowa [ skrzynka pocztowa ... ]

OPIS


SpamOracle to narzędzie pomagające wykrywać i odfiltrowywać „spam” (niezamawiane komercyjne
Poczta). Polega na analizie statystycznej słów pojawiających się w wiadomości e-mail,
porównując częstości słów z tymi, które znajdują się w dostarczonym przez użytkownika korpusie znanych
spam i znane wiarygodne wiadomości e-mail. Algorytm klasyfikacji oparty jest na algorytmie Bayesa
wzór i jest opisany w artykule Paula Grahama, A krok po kroku dla spam,
http://www.paulgraham.com/spam.html.

Ten program jest przeznaczony do pracy w połączeniu z procmail(1). Wynik
analiza jest wyprowadzana jako dodatkowy nagłówek wiadomości X-spam: następnie tak, Nie or nieznany,
plus dodatkowe szczegóły. Reguła procmaila może to przetestować X-spam: nagłówek i dostarczyć
e-mail na odpowiednią skrzynkę pocztową.

Ponadto SpamOracle analizuje również załączniki MIME, wydobywając odpowiednie informacje
takie jak typ MIME, kodowanie znaków i nazwa załączonego pliku oraz podsumowanie ich w pliku
dodatkowy Załączniki X: nagłówek. Pozwala to procmailowi ​​na łatwe odrzucanie wiadomości e-mail
zawierające podejrzane załączniki, np. pliki wykonywalne systemu Windows, które często wskazują na obecność wirusa.

WYMAGANIA ROLNICZE OGRANICZENIA


Aby korzystać ze SpamOracle, Twoja poczta musi zostać dostarczona do maszyny Unix, na której masz powłokę
konto. Ta maszyna musi mieć procmail(1) (patrz http://www.procmail.org/) zainstalowany.
Twój ~/.do przodu plik musi być skonfigurowany do przepuszczania wszystkich przychodzących wiadomości e-mail procmail(1). Gdyby
Twój serwer pocztowy obsługuje protokoły POP lub IMAP, możesz również użyć pobierz pocztę(1) do
pobrać pocztę z serwera i dostarczyć ją na komputer lokalny.

Aby zapewnić korpus wiadomości, z których SpamOracle „uczy się”, archiwum około 1000
Twoich e-maili jest potrzebnych. Archiwum musi zostać podzielone ręcznie lub półautomatycznie
znane spamy i znane dobre wiadomości. Błędnie sklasyfikowane wiadomości w korpusie (np. spam
błędnie zapisane wśród dobrych wiadomości) zmniejszy wydajność
Klasyfikacja. Archiwum musi być w formacie skrzynki pocztowej systemu Unix lub w formacie „jedna wiadomość na plik”
format (a la MH). Inne formaty, takie jak Babyl Emacsa, nie są obsługiwane.

Pojęcie „słowo” używane przez SpamOracle jest ukierunkowane na języki zachodnioeuropejskie,
tj. zestawy znaków ISO Latin-1 i Latin-9. Wstępna obsługa kodowania JIS
Język japoński można wybrać w czasie kompilacji. SpamOracle nie będzie działać dobrze, jeśli otrzymasz
wiele legalnych wiadomości e-mail napisanych w innych zestawach znaków, takich jak zestawy chińskie lub koreańskie.

INICJALIZACJA


Aby zbudować bazę danych częstotliwości słów z korpusu, wykonaj:

rm ~/.spamoracle.db
spamorakuł Dodaj -v -dobry dobre maile -spam wiadomości spamowe

Domyślnie baza danych jest przechowywana w pliku .spamoracle.db w twoim katalogu domowym.
Można to przesłonić za pomocą -f opcja: spamorakuł -f moja baza danych Dodaj ... Kurs -v opcja
drukuje informacje o postępie podczas przetwarzania korpusu.

Zakłada to, że dobre, niespamowe wiadomości z korpusu są przechowywane w pliku
dobre maileoraz znane wiadomości będące spamem w pliku wiadomości spamowe. Możesz także pobrać korpus
wiadomości z kilku plików i/lub przetwarzać je za pomocą kilku wywołań SpamOracle:

spamorakuł Dodaj -dobry dobre maile1 ... dobre maileN
spamorakuł Dodaj -spam spammaile1 ... wiadomości spamoweP

BADANIE THE DATABASE


Aby sprawdzić, czy baza danych została zbudowana poprawnie i zapoznać się z
analizy statystycznej wykonywanej przez SpamOracle, wywołać tryb „testowy” na skrzynkach pocztowych, które
właśnie użyłeś do zbudowania korpusu:

spamorakuł test dobre maile | jeszcze
spamorakuł test wiadomości spamowe | jeszcze

Dla każdej wiadomości w podanych skrzynkach pocztowych zobaczysz podsumowanie w następujący sposób:

Od: bbo <[email chroniony]>
Temat: Sprawdź To zdjęcie wyczerpane
Wynik: 1.00 -- 15
Szczegóły poprawione: 98 $$$$: 98 surfowanie: 98 asp:95 kliknij: 93 kabel:92
natychmiast: 90 https:88 internet:87 www:86 U4:85 nie jest: 14 miesiąc: 81
kom: 75 surfować: 75
Załączniki: cset="GB2312" type="application/octet-stream"
name="Guangwen4.zip"
Plik: skrzynka odbiorcza/314

Pierwsze dwa wiersze to tylko tzw Od: i Temat: pola oryginalnej wiadomości.

Kurs Wynik: wiersz podsumowuje wynik analizy. Pierwsza liczba (pomiędzy 0.0 a
1.0) to prawdopodobieństwo, że wiadomość faktycznie jest spamem --- lub równoważnie stopień
podobieństwa wiadomości z wiadomościami spamowymi w korpusie. Druga liczba (tzw
liczba całkowita z przedziału od 0 do 15) to liczba „interesujących” słów znalezionych w wiadomości.
„Ciekawe” słowa to te, które występują co najmniej 5 razy w korpusie. w przykładzie
mamy 15 interesujących słów (maksimum) i ocenę 1.00, co wskazuje na spam
wysoka pewność.

Kurs Szczegóły linia zawiera wyjaśnienie wyniku. Wymienia 15 najciekawszych
słowa znalezione w wiadomości, czyli 15 interesujących słów, których prawdopodobieństwo
oznaczający spam jest najdalej od neutralnego 0.5. Każde słowo jest podane z jego
indywidualny wynik, zapisany jako procent (między 01 a 99), a nie jako prawdopodobieństwo
aby zaoszczędzić miejsce. Widzimy tutaj wiele bardzo „spamowskich” słów, takich jak $ $ $ $ or
kliknij, z prawdopodobieństwem odpowiednio 0.98 i 0.93, oraz kilka „niewinnych” słów, takich jak
nie jest (prawdopodobieństwo 0.14). The U4 słowo z prawdopodobieństwem 0.85 jest w rzeczywistości pseudo-słowem
reprezentujący 4-literowe słowo pisane wielkimi literami — coś, co lubią spamerzy.

Kurs Załączniki: wiersz podsumowuje niektóre informacje o załącznikach MIME dla tej wiadomości.
Tutaj mamy jeden załącznik typu aplikacja/strumień oktect, Nazwa pliku Guangwen4.zip,
i zestaw znaków GB2312 (kodowanie dla języka chińskiego).

Kurs Plik: linia pokazuje plik, który jest testowany.

Normalnie podczas biegania spamorakuł test dobre maile, większość komunikatów powinna wychodzić z niskim
wynik (0.2 lub mniej) oraz podczas biegu spamorakuł test wiadomości spamowe, większość wiadomości powinna nadejść
z wysokim wynikiem (0.8 lub więcej). Jeśli nie, twoje ciało nie jest zbyt dobre lub nie dobrze
podział na spam i niespam. Aby szybko zobaczyć wartości odstające, możesz zmniejszyć
przedział wyników, dla których wyświetlane są podsumowania komunikatów, w następujący sposób:

spamorakuł test - min 0.2 dobre maile | jeszcze
# Targi tylko dobry maile w wynik >= 0.2
spamorakuł test -maks. 0.8 wiadomości spamowe | jeszcze
# Targi tylko spam maile w wynik <= 0.8

Teraz, dla bardziej wymagającego testu, weź skrzynkę pocztową, która zawiera niefiltrowane wiadomości e-mail, tj
mieszaninę spamu i legalnych wiadomości e-mail, a następnie przepuść ją przez SpamOracle:

spamorakuł test moja skrzynka pocztowa | mniej

Podziwiaj, jak dobrze wyrocznia rozpoznaje spam od reszty! Jeśli wynik nie jest taki
cudowny dla ciebie, pamiętaj, że niektóre spamy są po prostu zbyt krótkie, aby je rozpoznać (nie
dość znaczących słów). Być może twoje ciało było zbyt małe lub nie dobrze
skategoryzowane...

CECHOWANIE ROLNICZE FILTRACJA PRZYCHODZĄCY E-MAIL


Po zbudowaniu bazy danych możesz uruchamiać przychodzące wiadomości e-mail przez SpamOracle. The
komenda spamorakuł znak czyta jedną wiadomość e-mail ze standardowego wejścia i kopiuje ją do standardowego wejścia
wyjście z dwoma wstawionymi nagłówkami: X-spam: i Załączniki X:, X-spam: nagłówek ma jeden
następujące formaty:

X-spam: tak; wynik; detale

or

X-spam: Nie; wynik; detale

or

X-spam: nieznany; wynik; detale

Kurs wynik i detale są zgodne z opisem dla spamorakuł test.

Kurs tak/Nie/nieznany tag syntetyzuje wyniki analizy: tak oznacza, że ​​wynik
wynosi >= 0.8 i znaleziono co najmniej 5 interesujących słów; Nie oznacza, że ​​wynik wynosi <= 0.2
i znaleziono co najmniej 5 interesujących słów; nieznany jest zwracany w inny sposób. The nieznany
Przypadek ten występuje na ogół w przypadku bardzo krótkich wiadomości, w których było za mało interesujących słów
znaleziono.

Kurs Załączniki X: nagłówek zawiera te same informacje, co plik Załączniki: wyjście z
spamorakuł test, czyli podsumowanie załączników wiadomości.

Aby automatycznie przetwarzać przychodzące wiadomości e-mail za pośrednictwem SpamOracle i działać na podstawie wyników
analizy wystarczy wstawić do pliku następujące „przepisy”. ~/.procmailrc:

:0fw
| /usr/local/bin/spamoracle znak

:0
* ^ X-Spam: tak;
Skrzynka spam

Te tajemnicze polecenia oznaczają:

- Przeprowadź każdą pocztę przez spamorakuł znak Komenda. (Jeśli spamoracle nie został zainstalowany w
/ usr / local / bin, w razie potrzeby dostosuj ścieżkę.) Spowoduje to dodanie dwóch nagłówków do wiadomości: X-
Spam: i Załączniki X:, opisujący wyniki analizy spamu i załącznik
analiza.

- Jeśli mamy X-spam: tak header, dostarcz wiadomość do pliku Skrzynka spam raczej niż
swoją zwykłą skrzynkę pocztową. Pewnie przeczytasz Skrzynka spam raz na jakiś czas, ale rzadziej
niż zwykła skrzynka pocztowa. Odważni użytkownicy mogą umieścić / dev / null zamiast Skrzynka spam po prostu
wyrzuć wiadomość, ale nie rób tego, dopóki nie będziesz używać SpamOracle przez jakiś czas
i są zadowoleni z efektów. Wskaźnik fałszywych trafień SpamOracle (tj. legalnych wiadomości e-mail
sklasyfikowany jako spam) jest niski (0.1%), ale nie zerowy. Więc lepiej zachowaj domniemany spam
gdzieś i od czasu do czasu szybko je skanować.

Jeśli chcesz cieszyć się odrobiną filtrowania opartego na załącznikach, oto kilka reguł procmaila
za to:

:0
* ^X-Attachments:.*name=".*\.(pif|scr|exe|bat|com)"
Skrzynka spam

:0
* ^X-Attachments:.*type="audio/(x-wav|x-midi)
Skrzynka spam

:0
* ^(Typ zawartości:.*|X-Attachments:.*cset="|^Temat:.*=\?)(ks_c|gb2312|iso-2|euc-|big5|windows-1251)
Skrzynka spam

Pierwsza reguła traktuje jako spam każdą wiadomość, która ma plik wykonywalny Windows jako załącznik.
Wiadomości te są zazwyczaj wysyłane przez wirusy. Druga zasada robi to samo z załącznikami
typu x-wav lub x-midi. Zwykle nigdy nie otrzymuję muzyki pocztą elektroniczną, chociaż niektóre są popularne
wirusy e-mail wydają się lubić tego typu załączniki. Trzecia zasada traktuje jako spam każdy
poczty używającej kodowania znaków odpowiadającego koreańskiemu, chińskiemu, japońskiemu i
Cyrylica.

AKTUALIZACJA THE DATABASE


W dowolnym momencie możesz dodać do bazy danych więcej znanych spamów lub znanych wiarygodnych wiadomości
używając spamorakuł Dodaj dowództwo.

Na przykład, jeśli znajdziesz wiadomość spamową, która nie została sklasyfikowana jako spam, przejrzyj ją
spamorakuł Dodaj -spam, aby SpamOracle mógł uczyć się na własnych błędach. (Bez dodatkowych
argumentów, to polecenie odczyta pojedynczą wiadomość ze standardowego wejścia i zapisze ją jako
spam.) Pod błazen(1) na przykład po prostu zaznacz wiadomość spamową i wpisz ją

|spamorak Dodaj -spam

Podobnie, jeśli podczas sprawdzania skrzynki ze spamem znajdziesz wiarygodną wiadomość, przejrzyj ją
spamorakuł Dodaj -dobry.

Inną opcją jest gromadzenie większej liczby znanych spamów lub bardziej znanych dobrych wiadomości w skrzynce pocztowej
pliki i raz na jakiś czas to zrobić spamorakuł Dodaj -dobry nowe_dobre_maile or spamorakuł Dodaj -spam
nowe_spam_maile.

ZAPYTANIE THE DATABASE


Dla twojego zbudowania i rozrywki zawartość bazy danych można przeszukiwać
wyrażenia regularne. The spamorakuł podstęp regexp polecenie wyświetla wszystkie słowa w bazie danych
Ten mecz regexp (wyrażenie regularne w stylu Emacsa), wraz z ich liczbą
wystąpień w poczcie spamowej i w dobrej poczcie. Na przykład:

spamorakuł podstęp '.*' # pokazać cała kolekcja słowa -- duży lista!
spamorakuł podstęp 'seks.*'
spamorakuł podstęp „linux.*”

DATABASE KOPIE ZAPASOWE


Baza danych używana przez SpamOracle jest przechowywana w zwartym, binarnym formacie, który nie jest ludzki
czytelny. Ponadto format ten może ulec zmianie w późniejszych wersjach SpamOracle. Do
ułatwiają tworzenie kopii zapasowych i aktualizacje, zawartość bazy danych może być również manipulowana w
przenośny, format tekstowy.

Kurs spamorakuł backup polecenie zrzuca zawartość bazy danych na standardowe wyjście, w pliku a
format tekstowy, przenośny.

Kurs spamorakuł przywracać polecenie odczytuje taki zrzut ze standardowego wejścia i odbudowuje plik
bazę danych z tymi danymi.

Zalecana procedura aktualizacji do nowszej wersji SpamOracle to:

# Przed dotychczasowy Aktualizacja:
spamorakuł backup > plik kopii zapasowej
# Aktualizacja SpamOracle
# Przywracać dotychczasowy baza danych
spamorakuł przywracać < plik kopii zapasowej

KONFIGUROWANIE FILTRACJA PARAMETRY


Wiele parametrów rządzących klasyfikacją komunikatów można skonfigurować za pomocą pliku a
plik konfiguracyjny. Domyślnie konfiguracja jest odczytywana z pliku .spamoracle.conf
w katalogu domowym użytkownika. Można określić inny plik konfiguracyjny w pliku
wiersz poleceń za pomocą -konfiguracja opcja: spamorakuł -konfiguracja mój plik konfiguracyjny ...

Opisano listę parametrów konfigurowalnych oraz format pliku konfiguracyjnego
in spamoracle.conf(5).

Wszystkie parametry mają rozsądne wartości domyślne, ale możesz spróbować poprawić jakość
klasyfikację dalej, poprawiając je. Aby określić wpływ zmian, użyj
albo test or stan polecenia do spamorakuł, spamorakuł stan polecenie drukuje jedno-
wiersz podsumowania, ile wiadomości spamowych, niespamowych i nieznanych zostało znalezionych w skrzynkach pocztowych
podane jako argumenty.

TECHNICZNE SZCZEGÓŁY


Pojęcie „słowo” stosowane przez SpamOracle to dowolny ciąg od 3 do 12 następujących znaków: litery,
pojedyncze cudzysłowy i myślniki (-). Jeśli skompilowano obsługę języków europejskich innych niż angielski
w, znaki słowne obejmują również odpowiednie litery akcentowane dla języków w
pytanie. Wszystkie słowa są mapowane na małe litery, a litery akcentowane są mapowane na
odpowiednie litery bez akcentów.

Słowo stanowi również ciąg od 3 do 12 następujących znaków: cyfry, kropki,
przecinki i znaki dolara, euro i procent.

Ponadto ciąg trzech lub więcej wielkich liter generuje pseudo-słowo Un gdzie n
jest długością biegu. Podobnie ciąg trzech lub więcej znaków innych niż ASCII (kod >=
128) generuje pseudosłowo Wn gdzie n jest długością biegu.

Na przykład następujący tekst:

LATO in Angielski is napisany "ete" in francuski

jest przetwarzany na następujące słowa, zakładając, że podczas kompilacji wybrano obsługę języka francuskiego
czas:

U5 lato język angielski napisany ETE francuski W3

a jeśli nie wybrano wsparcia francuskiego:

U5 lato język angielski napisany francuski W3

Aby zobaczyć słowa wyodrębnione z wiadomości, wydaj polecenie spamorakuł słowa dowództwo.
Czyta albo pojedynczą wiadomość ze standardowego wejścia, albo wszystkie wiadomości ze skrzynki pocztowej
pliki podane jako argumenty, rozkłada komunikaty na słowa i wyświetla słowa.

LOSOWY UWAGI


Plik bazy danych można skompresować za pomocą gzip(1) w celu zaoszczędzenia miejsca na dysku kosztem
wolniej spamorakuł operacje. Jeśli plik bazy danych określony z rozszerzeniem -f opcja ma
rozbudowa .gz, spamorakuł automatycznie rozpakuje go podczas uruchamiania i ponownie skompresuje
po aktualizacjach.

Jeśli twoja poczta jest przechowywana w formacie MH, możesz napotkać błędy „zbyt długi wiersz poleceń”.
próbując przetworzyć wiele małych plików za pomocą spamorakuł Dodaj polecenie, np. podczas robienia
spamorakuł Dodaj -dobry archiwa/*/* -spam spam/*
Zamiast tego zrób coś takiego:
odnaleźć archiwum -Type f -wydrukować | xargs spamorakuł Dodaj -dobry
odnaleźć spam -Type f -wydrukować | xargs spamorakuł Dodaj -spam

Korzystaj ze spamoracle online, korzystając z usług onworks.net


Darmowe serwery i stacje robocze

Pobierz aplikacje Windows i Linux

Komendy systemu Linux

Ad