これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、MAC OS オンライン エミュレーターなど、複数の無料オンライン ワークステーションのいずれかを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド estwaver です。
プログラム:
NAME
estwaver - ウェブクローラーのコマンドラインインターフェース
SYNOPSIS
エストウェイバー INIT [-apn|-acc] [-xs|-xl|-xh] [-sv|-si|-sa] ルートディレクトリ
エストウェイバー クロール [-restart|-revisit|-revcont] ルートディレクトリ
エストウェイバー 単体テスト ルートディレクトリ
エストウェイバー フェッチ [-プロキシー ホスト 港] [-tout 番号] [-イル 言語] URL
DESCRIPTION
エストウェイバー サブコマンドの集合です。 サブコマンドの名前は、
最初の引数。 他の引数は、各サブコマンドに従って解析されます。 引数
ルートディレクトリ 構成ファイルなどを含むクローラーのルート ディレクトリを指定します。
エストウェイバー INIT [-apn|-acc] [-xs|-xl|-xh] [-sv|-si|-sa] ルートディレクトリ
クローラーのルート ディレクトリを作成します。
If -apn が指定されている場合、ヨーロッパのテキストに対しても N-gram 分析が実行されます。
If -acc が指定されている場合、N-gram の代わりに文字カテゴリ分析が実行されます
解析。
If -xs が指定されている場合、インデックスは 50000 未満のドキュメントを登録するように調整されます。
If -xl が指定されている場合、インデックスは 300000 を超えるドキュメントを登録するように調整されます。
If -xh が指定されている場合、インデックスは 1000000 を超えるドキュメントを登録するように調整されます。
If -sv が指定されている場合、スコアは void として格納されます。
If -はい が指定されている場合、スコアは 32 ビット整数として格納されます。
If -さ が指定されている場合、スコアはそのまま保存され、チューニングされないようにマークされます。
検索。
エストウェイバー クロール [-restart|-revisit|-revcont] ルートディレクトリ
クロールを開始します。
If -再起動 を指定すると、シード ドキュメントからクロールが再開されます。
If -再訪 が指定されている場合、収集された文書が再検討されます。
If -revcont が指定されている場合、収集された文書が再訪され、その後クローリングが行われます
続けた。
エストウェイバー 単体テスト ルートディレクトリ
単体テストを実行します。
エストウェイバー フェッチ [-プロキシー ホスト 港] [-tout 番号] [-イル 言語] URL
ドキュメントを取得します。
URL ドキュメントの URL を指定します。
-プロキシー プロキシ サーバーのホスト名とポート番号を指定します。
-太った タイムアウトを秒単位で指定します。
-the 優先言語を指定します。 デフォルトでは、英語です。
すべてのサブコマンドは、操作が成功した場合は 0 を返し、それ以外の場合は 1 を返します。実行中のクローラー
シグナル1(SIGHUP)、2(SIGINT)、3をキャッチすると、データベースを閉じて終了します
(SIGQUIT)、または 15 (SIGTERM)。
クローリングが完了すると、ディレクトリがあります _索引 クローラーのルート ディレクトリにあります。 それは
によって利用可能なインデックス estcmd などがあります。
onworks.net サービスを使用して estwaver をオンラインで使用する