Englishfrançaisespagnol

Icône de favori OnWorks

téléchargement de crawler4j pour Linux

Téléchargez gratuitement l'application crawler4j Linux pour l'exécuter en ligne dans Ubuntu en ligne, Fedora en ligne ou Debian en ligne

Il s'agit de l'application Linux nommée crawler4j dont la dernière version peut être téléchargée en tant que 4.4.0.zip. Il peut être exécuté en ligne dans le fournisseur d'hébergement gratuit OnWorks pour les postes de travail.

Téléchargez et exécutez en ligne gratuitement cette application nommée crawler4j avec OnWorks.

Suivez ces instructions pour exécuter cette application :

- 1. Téléchargé cette application sur votre PC.

- 2. Entrez dans notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous voulez.

- 3. Téléchargez cette application dans ce gestionnaire de fichiers.

- 4. Démarrez l'émulateur en ligne OnWorks Linux ou Windows en ligne ou l'émulateur en ligne MACOS à partir de ce site Web.

- 5. Depuis le système d'exploitation OnWorks Linux que vous venez de démarrer, accédez à notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous souhaitez.

- 6. Téléchargez l'application, installez-la et exécutez-la.

CAPTURES D'ÉCRAN

Ad


crawler4j


DESCRIPTION

crawler4j est un robot d'exploration Web open source pour Java qui fournit une interface simple pour explorer le Web. En l'utilisant, vous pouvez configurer un robot d'exploration Web multithread en quelques minutes. Vous devez créer une classe de robot qui étend WebCrawler. Cette classe décide quelles URL doivent être explorées et gère la page téléchargée. La fonction shouldVisit décide si l'URL donnée doit être explorée ou non. Dans l'exemple ci-dessus, cet exemple n'autorise pas les fichiers .css, .js et multimédia et n'autorise que les pages du domaine ics. La fonction visit est appelée après le téléchargement réussi du contenu d'une URL. Vous pouvez facilement obtenir l'URL, le texte, les liens, le code HTML et l'identifiant unique de la page téléchargée. Vous devez également implémenter une classe de contrôleur qui spécifie les graines du crawl, le dossier dans lequel les données de crawl intermédiaires doivent être stockées et le nombre de threads simultanés.



Caractéristiques

  • Vous devez également implémenter une classe de contrôleur qui spécifie les graines du crawl, le dossier dans lequel les données de crawl intermédiaires doivent être stockées et le nombre de threads simultanés :
  • Par défaut, il n'y a pas de limite à la profondeur d'exploration
  • Vous pouvez activer SSL
  • Activer l'exploration de contenu binaire
  • crawler4j est conçu très efficacement et a la capacité d'explorer les domaines très rapidement
  • La chaîne d'agent utilisateur est utilisée pour représenter votre robot d'exploration sur les serveurs Web


Langage de programmation

Java


Catégories

Services Web

Il s'agit d'une application qui peut également être récupérée à partir de https://sourceforge.net/projects/crawler4j.mirror/. Il a été hébergé dans OnWorks afin d'être exécuté en ligne de la manière la plus simple à partir de l'un de nos systèmes d'exploitation gratuits.


Serveurs et postes de travail gratuits

Télécharger des applications Windows et Linux

  • 1
    Unitedrpms
    Unitedrpms
    Rejoignez-nous à Gitter !
    https://gitter.im/unitedrpms-people/Lobby
    Activez le référentiel URPMS dans votre
    système -
    https://github.com/UnitedRPMs/unitedrpms.github.io/bl...
    Télécharger unitedrpms
  • 2
    Boostez les bibliothèques C++
    Boostez les bibliothèques C++
    Boost fournit un portable gratuit
    bibliothèques C++ évaluées par des pairs. Les
    l'accent est mis sur les bibliothèques portables qui
    fonctionnent bien avec la bibliothèque standard C++.
    Voir http://www.bo...
    Télécharger les bibliothèques Boost C++
  • 3
    VirtuelGL
    VirtuelGL
    VirtualGL redirige les commandes 3D d'un
    Application Unix/Linux OpenGL sur un
    GPU côté serveur et convertit le
    rendu des images 3D dans un flux vidéo
    avec lequel ...
    Télécharger VirtualGL
  • 4
    libusb
    libusb
    Bibliothèque pour activer l'espace utilisateur
    programmes d'application pour communiquer avec
    Périphériques USB. Public : Développeurs, Fin
    Utilisateurs/Bureau. Langage de programmation : C
    Catégories ...
    Télécharger libusb
  • 5
    LAMPÉE
    LAMPÉE
    SWIG est un outil de développement logiciel
    qui relie les programmes écrits en C et
    C++ avec une variété de
    langages de programmation. SWIG est utilisé avec
    différent...
    Télécharger SWIG
  • 6
    Thème de réaction WooCommerce Nextjs
    Thème de réaction WooCommerce Nextjs
    Thème React WooCommerce, construit avec
    Suivant JS, Webpack, Babel, Node et
    Express, en utilisant GraphQL et Apollo
    Client. Boutique WooCommerce dans React (
    contient : Produits...
    Télécharger le thème WooCommerce Nextjs React
  • Plus "

Commandes Linux

Ad