Esta es la aplicación de Windows llamada crawler4j cuya última versión se puede descargar como 4.4.0.zip. Se puede ejecutar en línea en el proveedor de alojamiento gratuito OnWorks para estaciones de trabajo.
Descargue y ejecute en línea esta aplicación llamada crawler4j con OnWorks de forma gratuita.
Siga estas instrucciones para ejecutar esta aplicación:
- 1. Descargue esta aplicación en su PC.
- 2. Ingrese en nuestro administrador de archivos https://www.onworks.net/myfiles.php?username=XXXXX con el nombre de usuario que desee.
- 3. Cargue esta aplicación en dicho administrador de archivos.
- 4. Inicie cualquier emulador en línea de OS OnWorks desde este sitio web, pero mejor emulador en línea de Windows.
- 5. Desde el sistema operativo OnWorks Windows que acaba de iniciar, vaya a nuestro administrador de archivos https://www.onworks.net/myfiles.php?username=XXXXX con el nombre de usuario que desee.
- 6. Descarga la aplicación e instálala.
- 7. Descargue Wine desde los repositorios de software de sus distribuciones de Linux. Una vez instalada, puede hacer doble clic en la aplicación para ejecutarla con Wine. También puedes probar PlayOnLinux, una elegante interfaz sobre Wine que te ayudará a instalar programas y juegos populares de Windows.
Wine es una forma de ejecutar software de Windows en Linux, pero no requiere Windows. Wine es una capa de compatibilidad de Windows de código abierto que puede ejecutar programas de Windows directamente en cualquier escritorio de Linux. Esencialmente, Wine está tratando de volver a implementar una cantidad suficiente de Windows desde cero para poder ejecutar todas esas aplicaciones de Windows sin necesidad de Windows.
SCREENSHOTS
Ad
rastreador4j
DESCRIPCIÓN
crawler4j es un rastreador web de código abierto para Java que proporciona una interfaz simple para rastrear la Web. Utilizándolo, puede configurar un rastreador web de subprocesos múltiples en pocos minutos. Debe crear una clase de rastreador que amplíe WebCrawler. Esta clase decide qué URL se deben rastrear y maneja la página descargada. La función shouldVisit decide si la URL dada debe rastrearse o no. En el ejemplo anterior, este ejemplo no permite archivos .css, .js y multimedia y solo permite páginas dentro del dominio ics. La función de visita se llama después de que el contenido de una URL se descargue correctamente. Puede obtener fácilmente la URL, el texto, los enlaces, el html y la identificación única de la página descargada. También debe implementar una clase de controlador que especifique las semillas del rastreo, la carpeta en la que se deben almacenar los datos de rastreo intermedios y la cantidad de subprocesos simultáneos.
Caracteristicas
- También debe implementar una clase de controlador que especifique las semillas del rastreo, la carpeta en la que se deben almacenar los datos de rastreo intermedios y la cantidad de subprocesos simultáneos:
- De forma predeterminada, no hay límite en la profundidad de rastreo
- Puede habilitar SSL
- Habilitar el rastreo de contenido binario
- crawler4j está diseñado de manera muy eficiente y tiene la capacidad de rastrear dominios muy rápido
- La cadena de agente de usuario se utiliza para representar su rastreador en los servidores web.
Lenguaje de programación
Java
Categorías
Esta es una aplicación que también se puede obtener de https://sourceforge.net/projects/crawler4j.mirror/. Ha sido alojado en OnWorks para poder ejecutarse online de la forma más sencilla desde uno de nuestros Sistemas Operativos gratuitos.