英語フランス語スペイン語

OnWorksファビコン

mailcross-クラウドでのオンライン

Ubuntu Online、Fedora Online、Windowsオンラインエミュレーター、またはMACOSオンラインエミュレーターを介してOnWorks無料ホスティングプロバイダーでメールクロスを実行します

これは、Ubuntu Online、Fedora Online、Windowsオンラインエミュレーター、MACOSオンラインエミュレーターなどの複数の無料オンラインワークステーションのXNUMXつを使用してOnWorks無料ホスティングプロバイダーで実行できるコマンドメールクロスです。

プログラム:

NAME


mailcross-dbaclで使用するための相互検証シミュレーター。

SYNOPSIS


メールクロス command [ コマンド引数 ]

DESCRIPTION


メールクロス 電子メールのフィルタリングと分類を相互検証するタスクを自動化します
などのプログラム dbacl(1)。 分類されたドキュメントのセットが与えられると、mailcrossは開始します
シミュレーションを実行して分類エラーを推定し、それによって微調整を可能にします
分類器のパラメーター。

交差検定は、分類の品質を比較するために広く使用されている方法です。
アルゴリズムを学習することで、それらの間の基本的な比較が可能になります
を利用する分類器 dbacl(1)と バイエソル(1)、およびその他の競合する分類子。

相互検証の仕組みは次のとおりです。事前に分類された電子メールメッセージのセット
最初に、ほぼ同じサイズのサブセットに分割されます。 サブセットごとに、フィルター
(デフォルトでは、 dbacl(1))は、このサブセット内の各メッセージをに基づいて分類するために使用されます
残りのサブセットからカテゴリを学習しました。 結果の分類
次に、エラーはすべてのサブセットで平均化されます。

交差検定によって得られた結果は、基本的に次の順序に依存しません。
サンプルメール。 その他の方法(を参照) メールトー(1)メールフット(1))キャプチャを試みます
時間の経過に伴う分類エラーの動作。

メールクロス 次の場合に環境変数MAILCROSS_LEARNERおよびMAILCROSS_FILTERを使用します
実行。これにより、任意のフィルターの相互検証が可能になります。
以下の「環境」セクションに記載されている互換性条件。

便宜上、 メールクロス を実装します テストスイート の事前定義されたラッパーを持つフレームワーク
いくつかのオープンソース分類子。 これにより、 dbacl(1)と
同じ電子メールサンプルのセットで競合する分類子。 以下の使用法のセクションを参照してください。

準備中、 メールクロス 現在のmailcross.dという名前のサブディレクトリを構築します
作業ディレクトリ。 必要な計算はすべて、このサブディレクトリ内で実行されます。

EXIT ステータス


メールクロス 成功した場合は0を返し、問題が発生した場合は1を返します。

コマンド


prepare サイズ
現在の作業ディレクトリにmailcross.dという名前のサブディレクトリを準備し、
正確に空のサブディレクトリを設定します サイズ サブセット。

加えます カテゴリ [ファイル]...
指定されている場合はFILEまたはSTDINのいずれかから一連の電子メールを取得し、それらを関連付けます
  カテゴリ。 すべてのメールは、のサブディレクトリにランダムに配信されます
後で使用するためのmailcross.d。 それぞれについて カテゴリ、このコマンドは数回繰り返すことができます
回数ですが、少なくともXNUMX回は実行する必要があります。

ディレクトリmailcross.dとそのすべての内容を削除します。

学ぶ 以前に作成された電子メールメッセージのサブセットごとに、すべてのカテゴリを事前に学習します
これを除くすべてのサブセットの内容に基づいています。 The コマンド引数
MAILCROSS_LEARNERに渡されます。

ラン 以前に作成された電子メールメッセージのサブセットごとに、分類を実行します
このサブセットを除くすべてに関連付けられた事前学習済みのカテゴリに基づいています。 The
コマンド引数 MAILCROSS_FILTERに渡されます。

まとめる
最新の交差検定実行の統計を出力します。

レビュー トゥルーキャット 予測
最後に実行された統計をスキャンし、に属するすべてのメッセージを抽出します
カテゴリ トゥルーキャット しかし、カテゴリに分類されています 予測。 抽出された
メッセージは、閲覧のためにmailcross.d/reviewディレクトリにコピーされます。

テストスイート リスト
選択可能な使用可能なフィルター/ラッパースクリプトのリストを表示します。

テストスイート select [フィルター]...
名前の付いたフィルターを準備します フィルタ シミュレーションに使用されます。 フィルタ名は
ディレクトリにあるラッパースクリプトの名前 / usr / share / dbacl / testsuite.
各フィルターには、以下に説明する堅固なインターフェースと、それを選択する動作があります。
にコピーします mailcross.d/フィルター ディレクトリ。 そこにあるフィルターのみが使用されます
シミュレーションで。

テストスイート 選択解除 [フィルター]...
名前付きフィルターをディレクトリから削除します mailcross.d/フィルター 彼らが
シミュレーションでは使用されません。

テストスイート ラン
以前に追加されたデータセットで選択されたすべてのフィルターを呼び出し、計算します
誤分類率。

テストスイート status
スケジュールされたシミュレーションについて説明します。

テストスイート まとめる
すべてのフィルターの相互検証結果を表示します。 後にのみ意味があります ラン


USAGE


通常の使用パターンは次のとおりです。まず、メールを分離する必要があります
いくつかのカテゴリへのコレクション(手動またはその他)。 各カテゴリは
XNUMXつ以上のフォルダに関連付けられていますが、各フォルダに複数のフォルダを含めることはできません
カテゴリー。 次に、使用するサブセットの数、たとえば10を決定する必要があります。多すぎることに注意してください。
サブセットは計算を急速に遅くします。 今、あなたはタイプすることができます

%mailcross prepare 10

次に、すべてのカテゴリについて、このカテゴリに関連付けられているすべてのフォルダを追加する必要があります。 仮定する
名前の付いたXNUMXつのカテゴリがあります スパム, , 遊びます、mboxに関連付けられています
ファイル スパム.mbox, work.mbox, play.mbox それぞれ。 あなたはタイプします

%mailcross add spam spam.mbox
%mailcross add work work.mbox
%mailcross add play play.mbox

これで、必要な数のシミュレーションを実行できます。 すべての相互検証は、
学習、実行、要約の段階。 これらの操作は、
MAILCROSS_FILTER変数とMAILCROSS_LEARNER変数で指定された分類子。 設定することにより
これらの変数を適切に使用すると、さまざまな分類のパフォーマンスを比較できます。
分類子のコマンドラインオプション。

%mailcrosslearn
%mailcross run
%mailcrossサマリー

testsuiteコマンドは、上記の手順を簡略化し、比較できるように設計されています。
これに限定されない、幅広い電子メール分類子 dbacl。 分類子は
にあるラッパースクリプトを介してサポートされます / usr / share / dbacl / testsuite
ディレクトリにあります。

テストスイートを使用するときの最初の段階は、比較する分類子を決定することです。 君
次のように入力すると、使用可能なラッパーのリストを表示できます。

%mailcrossテストスイートリスト

ラッパースクリプトは実際の電子メール分類子ではないことに注意してください。
システム管理者またはその他の方法で個別にインストールされます。 これが行われると、あなたは
次のように入力して、シミュレーション用のXNUMXつ以上のラッパーを選択できます。

%mailcross testsuite select dbaclA ifile

選択した分類子の一部がシステムで見つからない場合、それらは選択されません。
一部のラッパーは、たとえば分類子の場合など、ハードコードされたカテゴリ名を持つことができることにも注意してください
二項分類のみをサポートします。 警告メッセージに注意してください。

シミュレーションを実行するだけです。 注意してください、これには長い時間がかかる場合があります(数時間
分類子によって異なります)。

%mailcross testsuite run
%mailcrosstestsuite要約

シミュレーションがすべて完了したら、作業ファイル、ログファイルなどを削除できます。
入力して、

%mailcross clean

相互検証の進行状況は、さまざまなログファイルにサイレントに書き込まれます。
に位置する mailcross.d/ログ ディレクトリ。 問題が発生した場合は、これらを確認してください。

SCRIPT INTERFACE


メールクロス テストスイート 準備したメールコーパスの学習と分類を担当します
選択した各分類子。 分類器にはさまざまなインターフェースがあるため、これは
これらのインターフェースを、使用可能な標準形式に個別にラップすることで可能になります
by メールクロス テストスイート.

各ラッパースクリプトは、単一のコマンドとそれに続くゼロを受け入れるコマンドラインツールです。
標準形式のオプションの引数:

ラッパーコマンド[引数]..。

各ラッパースクリプトは、明確に定義された方法でSTDINとSTDOUTも使用します。 いいえの場合
動作が説明されている場合は、出力または入力を使用しないでください。 可能なコマンドは次のとおりです
以下で説明します:

フィルタこの場合、STDINにはXNUMXつの電子メールと、カテゴリファイル名のリストが必要です。
$ 2、$ 3などで期待されます。スクリプトは、に対応するカテゴリ名を書き込みます
STDOUTの入力メール。 末尾の改行は必要ありません。

学ぶこの場合、STDINでは標準のmboxストリームが期待されますが、適切なものは
カテゴリファイル名は$2で期待されています。 STDOUTに出力は書き込まれません。

cleanこの場合、ディレクトリは$ 2にあると予想され、古いデータベースがないか調べられます。
情報。 古いデータベースが見つかった場合、それらはパージまたはリセットされます。 出力はありません
STDOUTに書き込まれます。

説明する
この場合、XNUMX行のテキストがSTDOUTに書き込まれ、フィルターの
機能。 行の折り返しを防ぐために、行は短くする必要があります。
ターミナル。

ブートストラップ
この場合、ディレクトリは$2であると予想されます。 ラッパースクリプトは最初にチェックします
関連する分類子の存在、およびその他の前提条件。 チェックの場合
が成功すると、ラッパーは指定されたディレクトリに複製されます。 礼儀
成功または失敗を表すために、STDOUTで通知を行う必要があります。 それも
より長い説明の警告を与えることは許されます。

つま先使用者 メールトーとします。

によって使用される足 メールフットとします。

ENVIRONMENT


ロード直後、 メールクロス $HOMEディレクトリにある隠しファイル.mailcrossrcを読み取ります。
存在する場合は、環境のカスタム値を定義するのに適した場所です。
変数。

MAILCROSS_FILTER
この変数には、実行中に繰り返し実行されるシェルコマンドが含まれています
ステージ。 コマンドはSTDINで電子メールメッセージを受け入れ、結果を出力する必要があります
種別名。 また、コマンドでカテゴリファイル名のリストを受け入れる必要があります
ライン。 未定義の場合、 メールクロス デフォルト値MAILCROSS_FILTER="dbacl-Tを使用します
email -T xml -v "(また、各カテゴリの前に-cオプションを魔法のように追加します)。

MAILCROSS_LEARNER
この変数には、実行中に繰り返し実行されるシェルコマンドが含まれています。
学習段階。 このコマンドは、STDINでmboxタイプの電子メールストリームを受け入れる必要があります。
学習、およびコマンドラインのカテゴリのファイル名。 未定義の場合、
メールクロス デフォルト値を使用しますMAILCROSS_LEARNER="dbacl -H 19 -T email -T xml
-l"。

テンディル
このディレクトリは、ラッパースクリプトの利益のためにエクスポートされます。 必要なスクリプト
一時ファイルを作成するには、それらをTEMPDIRで指定された場所に配置する必要があります。

注意事項


サブディレクトリmailcross.dは非常に大きくなる可能性があります。 トレーニングの完全なコピーが含まれています
コーパス、および学習ファイル サイズ 追加されたすべてのカテゴリの倍、およびさまざまな
ログファイル。

警告


相互検証は広く使用されていますが、その場限りの統計手順であり、完全に無関係です
ベイズの定理に、そして論争の対象となります。 これは自己責任で使用してください。

SOURCE


このプログラムの最新バージョンのソースコードは、次の場所から入手できます。
場所:

http://www.lbreyer.com/gpl.html
http://dbacl.sourceforge.net

onworks.netサービスを使用してオンラインでmailcrossを使用する


無料のサーバーとワークステーション

Windows と Linux のアプリをダウンロード

Linuxコマンド

Ad