Questa è l'app Linux denominata webStraktor la cui ultima versione può essere scaricata come webStraktor-20140420-R01.zip. Può essere eseguito online nel provider di hosting gratuito OnWorks per workstation.
Scarica ed esegui online questa app chiamata webStraktor con OnWorks gratuitamente.
Segui queste istruzioni per eseguire questa app:
- 1. Scaricata questa applicazione sul tuo PC.
- 2. Entra nel nostro file manager https://www.onworks.net/myfiles.php?username=XXXXX con il nome utente che desideri.
- 3. Carica questa applicazione in tale file manager.
- 4. Avviare l'emulatore online OnWorks Linux o Windows online o l'emulatore online MACOS da questo sito Web.
- 5. Dal sistema operativo OnWorks Linux che hai appena avviato, vai al nostro file manager https://www.onworks.net/myfiles.php?username=XXXXX con il nome utente che desideri.
- 6. Scarica l'applicazione, installala ed eseguila.
IMMAGINI
Ad
webStraktor
DESCRIZIONE
webStraktor è un client programmabile per l'estrazione di dati dal World Wide Web. Il suo scopo è quello di raschiare il contenuto basato su HTML tramite il protocollo HTTP ed estrarre le informazioni rilevanti. webStraktor dispone di un linguaggio di scripting per facilitare la raccolta, l'estrazione e l'archiviazione delle informazioni disponibili sul web, comprese le immagini. Il linguaggio di scripting utilizza elementi della sintassi dell'espressione regolare e di xPath. Il linguaggio di scripting webStraktor ha un piccolo set di istruzioni e la sua sintassi è facile da padroneggiare.
Il formato di output standard di webStraktor è basato su XML, nelle code page ASCII, UTF-8 o ISO-8859-1 (Latin1).
webStraktor si basa su Apache HttpClient per il recupero dei contenuti tramite il protocollo HTTP. Aderisce al protocollo Robots Exclusion Protocol e può essere configurato per operare in modo anonimo collegandosi alle tipologie predominanti di web proxy server.
webStraktor estende le funzionalità di web crawler, spider o bot integrando capacità di scraping e crawling.
Caratteristiche
- crawler web programmabile (web spider o web bot)
- linguaggio di scripting facile da padroneggiare
- ambiente di sviluppo grafico basato su java swing
- Uscita XML UTF8 o ISO-8859-1
- si integra con applicazioni di pianificazione prontamente disponibili
- configurazione completa
- supporto per server proxy web
- supporto del protocollo di esclusione del robot
- firma dell'agente utente configurabile
- tutorial passo passo e script di esempio
- Basato su Apache HTTPClient
Pubblico
Sviluppatori, Architetti
Interfaccia utente
Altalena Java
Linguaggio di programmazione
Java
Ambiente database
Basato su XML
Questa è un'applicazione che può anche essere scaricata da https://sourceforge.net/projects/webstraktor/. È stato ospitato in OnWorks per essere eseguito online in modo più semplice da uno dei nostri sistemi operativi gratuiti.