Ini ialah apl Linux bernama webStraktor yang keluaran terbarunya boleh dimuat turun sebagai webStraktor-20140420-R01.zip. Ia boleh dijalankan dalam talian dalam penyedia pengehosan percuma OnWorks untuk stesen kerja.
Muat turun dan jalankan dalam talian aplikasi bernama webStraktor ini dengan OnWorks secara percuma.
Ikut arahan ini untuk menjalankan apl ini:
- 1. Memuat turun aplikasi ini dalam PC anda.
- 2. Masukkan dalam pengurus fail kami https://www.onworks.net/myfiles.php?username=XXXXX dengan nama pengguna yang anda mahukan.
- 3. Muat naik aplikasi ini dalam pengurus filem tersebut.
- 4. Mulakan OnWorks Linux dalam talian atau emulator dalam talian Windows atau emulator dalam talian MACOS dari tapak web ini.
- 5. Daripada OS Linux OnWorks yang baru anda mulakan, pergi ke pengurus fail kami https://www.onworks.net/myfiles.php?username=XXXX dengan nama pengguna yang anda mahukan.
- 6. Muat turun aplikasi, pasang dan jalankan.
SKRIN:
webStraktor
HURAIAN:
webStraktor ialah klien pengekstrakan data World Wide Web yang boleh diprogramkan. Tujuannya adalah untuk mengikis kandungan berasaskan HTML melalui protokol HTTP dan mengekstrak maklumat yang berkaitan. webStraktor menampilkan bahasa skrip untuk memudahkan pengumpulan, pengekstrakan dan penyimpanan maklumat yang tersedia di web, termasuk imej. Bahasa skrip menggunakan elemen Sintaks Regular Expression dan xPath. Bahasa skrip webStraktor mempunyai set arahan yang kecil dan sintaksnya mudah dikuasai.
Format keluaran webStraktor standard adalah berasaskan XML, sama ada dalam halaman kod ASCII, UTF-8 atau ISO-8859-1 (Latin1).
webStraktor bergantung pada Apache HttpClient untuk mendapatkan semula kandungan melalui protokol HTTP. Ia mematuhi Protokol Pengecualian Robot dan ia boleh dikonfigurasikan untuk beroperasi dengan cara tanpa nama dengan menyambung kepada jenis pelayan proksi web yang utama.
webStraktor memanjangkan fungsi perangkak web, labah-labah atau bot dengan menyepadukan keupayaan mengikis dan merangkak.
Ciri-ciri
- perangkak web boleh atur cara (labah-labah web atau bot web)
- mudah untuk menguasai bahasa skrip
- persekitaran pembangunan grafik berasaskan java swing
- Output XML UTF8 atau ISO-8859-1
- disepadukan dengan aplikasi penjadualan yang tersedia
- konfigurasi menyeluruh
- sokongan pelayan proksi web
- sokongan protokol pengecualian robot
- tandatangan Ejen Pengguna yang boleh dikonfigurasikan
- tutorial langkah demi langkah dan contoh skrip
- berasaskan Apache HttpClient
Penonton
Pemaju, Arkitek
Antaramuka pengguna
Java Swing
Bahasa Pengaturcaraan
Java
Persekitaran Pangkalan Data
berasaskan XML
Ini adalah aplikasi yang juga boleh diambil dari https://sourceforge.net/projects/webstraktor/. Ia telah dihoskan dalam OnWorks untuk dijalankan dalam talian dengan cara yang paling mudah daripada salah satu Sistem Operasi percuma kami.