Questa è l'app Linux denominata Heritrix: Internet Archive Web Crawler la cui ultima versione può essere scaricata come heritrix-1.8.0.jar. Può essere eseguito online nel provider di hosting gratuito OnWorks per workstation.
Scarica ed esegui online questa app chiamata Heritrix: Internet Archive Web Crawler con OnWorks gratuitamente.
Segui queste istruzioni per eseguire questa app:
- 1. Scaricata questa applicazione sul tuo PC.
- 2. Entra nel nostro file manager https://www.onworks.net/myfiles.php?username=XXXXX con il nome utente che desideri.
- 3. Carica questa applicazione in tale file manager.
- 4. Avviare l'emulatore online OnWorks Linux o Windows online o l'emulatore online MACOS da questo sito Web.
- 5. Dal sistema operativo OnWorks Linux che hai appena avviato, vai al nostro file manager https://www.onworks.net/myfiles.php?username=XXXXX con il nome utente che desideri.
- 6. Scarica l'applicazione, installala ed eseguila.
Heritrix: crawler Web di archivio Internet
Ad
DESCRIZIONE
Il progetto archive-crawler sta costruendo Heritrix: un web crawler flessibile, estensibile, robusto e scalabile in grado di recuperare, archiviare e analizzare l'intera diversità e ampiezza dei contenuti accessibili da Internet.Caratteristiche
- raccoglie in modo approfondito e completo i contenuti del sito web
- funziona su qualsiasi piattaforma Java (consigliato Linux)
- memorizza il contenuto in formato aggregato/trascrizione ARC o ISO WARC
- interfaccia web per il controllo dell'operatore e il monitoraggio dei crawl
Pubblico
Utenti finali avanzati, sviluppatori, istruzione, governo, tecnologia dell'informazione, organizzazioni senza scopo di lucro
Interfaccia utente
Web based-
Linguaggio di programmazione
Java
Ambiente database
Berkeley/Sleepycat/Gdbm (DBM)
Questa è un'applicazione che può anche essere scaricata da https://sourceforge.net/projects/archive-crawler/. È stato ospitato in OnWorks per essere eseguito online nel modo più semplice da uno dei nostri sistemi operativi gratuiti.