これは、Heritrix:Internet Archive Web Crawlerという名前のWindowsアプリであり、最新リリースはheritrix-1.8.0.jarとしてダウンロードできます。 ワークステーション用の無料ホスティングプロバイダーOnWorksでオンラインで実行できます。
Heritrixという名前のこのアプリをオンラインでダウンロードして実行します:OnWorksを使用したインターネットアーカイブWebクローラーを無料でダウンロードします。
このアプリを実行するには、次の手順に従ってください。
-1。このアプリケーションをPCにダウンロードしました。
--2。ファイルマネージャーhttps://www.onworks.net/myfiles.php?username=XXXXXに必要なユーザー名を入力します。
-3。このアプリケーションをそのようなファイルマネージャにアップロードします。
-4。このWebサイトからOSOnWorksオンラインエミュレーターを起動しますが、Windowsオンラインエミュレーターの方が優れています。
-5。起動したばかりのOnWorksWindows OSから、必要なユーザー名でファイルマネージャーhttps://www.onworks.net/myfiles.php?username=XXXXXにアクセスします。
-6。アプリケーションをダウンロードしてインストールします。
-7.LinuxディストリビューションソフトウェアリポジトリからWineをダウンロードします。 インストールしたら、アプリをダブルクリックして、Wineで実行できます。 また、人気のあるWindowsプログラムやゲームのインストールに役立つWine上の豪華なインターフェイスであるPlayOnLinuxを試すこともできます。
WineはLinux上でWindowsソフトウェアを実行する方法ですが、Windowsは必要ありません。 Wineは、任意のLinuxデスクトップでWindowsプログラムを直接実行できるオープンソースのWindows互換性レイヤーです。 基本的に、Wineは、実際にWindowsを必要とせずに、これらすべてのWindowsアプリケーションを実行できるように、十分な数のWindowsを最初から再実装しようとしています。
Heritrix:インターネットアーカイブWebクローラー
Ad
DESCRIPTION
アーカイブクローラープロジェクトは、Heritrixを構築しています。これは、インターネットにアクセス可能なコンテンツの多様性と幅を完全に取得、アーカイブ、分析できる、柔軟で拡張性があり、堅牢でスケーラブルなWebクローラーです。特徴
- ウェブサイトのコンテンツを深く徹底的に収集します
- 任意のJavaプラットフォームで動作します(Linuxを推奨)
- コンテンツをARCまたはISOWARCの集計/トランスクリプト形式で保存します
- オペレーターによるクロールの制御と監視のためのWebインターフェース
Audience
高度なエンドユーザー、開発者、教育、政府、情報技術、非営利団体
ユーザーインターフェース
ウェブベースの
プログラミング言語
Java
データベース環境
バークレー/スリーピーキャット/ Gdbm(DBM)
これは、https://sourceforge.net/projects/archive-crawler/からも取得できるアプリケーションです。 無料のオペレーティングシステムのXNUMXつから最も簡単な方法でオンラインで実行するために、OnWorksでホストされています。