Esta es la aplicación de Linux llamada crawler4j cuya última versión se puede descargar como 4.4.0.zip. Se puede ejecutar en línea en el proveedor de alojamiento gratuito OnWorks para estaciones de trabajo.
Descargue y ejecute en línea esta aplicación llamada crawler4j con OnWorks de forma gratuita.
Siga estas instrucciones para ejecutar esta aplicación:
- 1. Descargue esta aplicación en su PC.
- 2. Ingrese en nuestro administrador de archivos https://www.onworks.net/myfiles.php?username=XXXXX con el nombre de usuario que desee.
- 3. Cargue esta aplicación en dicho administrador de archivos.
- 4. Inicie el emulador en línea OnWorks Linux o Windows en línea o el emulador en línea MACOS desde este sitio web.
- 5. Desde el SO OnWorks Linux que acaba de iniciar, vaya a nuestro administrador de archivos https://www.onworks.net/myfiles.php?username=XXXXX con el nombre de usuario que desee.
- 6. Descarga la aplicación, instálala y ejecútala.
SCREENSHOTS
Ad
rastreador4j
DESCRIPCIÓN
crawler4j es un rastreador web de código abierto para Java que proporciona una interfaz simple para rastrear la Web. Utilizándolo, puede configurar un rastreador web de subprocesos múltiples en pocos minutos. Debe crear una clase de rastreador que amplíe WebCrawler. Esta clase decide qué URL se deben rastrear y maneja la página descargada. La función shouldVisit decide si la URL dada debe rastrearse o no. En el ejemplo anterior, este ejemplo no permite archivos .css, .js y multimedia y solo permite páginas dentro del dominio ics. La función de visita se llama después de que el contenido de una URL se descargue correctamente. Puede obtener fácilmente la URL, el texto, los enlaces, el html y la identificación única de la página descargada. También debe implementar una clase de controlador que especifique las semillas del rastreo, la carpeta en la que se deben almacenar los datos de rastreo intermedios y la cantidad de subprocesos simultáneos.
Caracteristicas
- También debe implementar una clase de controlador que especifique las semillas del rastreo, la carpeta en la que se deben almacenar los datos de rastreo intermedios y la cantidad de subprocesos simultáneos:
- De forma predeterminada, no hay límite en la profundidad de rastreo
- Puede habilitar SSL
- Habilitar el rastreo de contenido binario
- crawler4j está diseñado de manera muy eficiente y tiene la capacidad de rastrear dominios muy rápido
- La cadena de agente de usuario se utiliza para representar su rastreador en los servidores web.
Lenguaje de programación
Java
Categorías
Esta es una aplicación que también se puede obtener de https://sourceforge.net/projects/crawler4j.mirror/. Ha sido alojado en OnWorks para poder ejecutarse online de la forma más sencilla desde uno de nuestros Sistemas Operativos gratuitos.