Il s'agit de l'application Linux nommée crawler4j dont la dernière version peut être téléchargée en tant que 4.4.0.zip. Il peut être exécuté en ligne dans le fournisseur d'hébergement gratuit OnWorks pour les postes de travail.
Téléchargez et exécutez en ligne gratuitement cette application nommée crawler4j avec OnWorks.
Suivez ces instructions pour exécuter cette application :
- 1. Téléchargé cette application sur votre PC.
- 2. Entrez dans notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous voulez.
- 3. Téléchargez cette application dans ce gestionnaire de fichiers.
- 4. Démarrez l'émulateur en ligne OnWorks Linux ou Windows en ligne ou l'émulateur en ligne MACOS à partir de ce site Web.
- 5. Depuis le système d'exploitation OnWorks Linux que vous venez de démarrer, accédez à notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous souhaitez.
- 6. Téléchargez l'application, installez-la et exécutez-la.
CAPTURES D'ÉCRAN
Ad
crawler4j
DESCRIPTION
crawler4j est un robot d'exploration Web open source pour Java qui fournit une interface simple pour explorer le Web. En l'utilisant, vous pouvez configurer un robot d'exploration Web multithread en quelques minutes. Vous devez créer une classe de robot qui étend WebCrawler. Cette classe décide quelles URL doivent être explorées et gère la page téléchargée. La fonction shouldVisit décide si l'URL donnée doit être explorée ou non. Dans l'exemple ci-dessus, cet exemple n'autorise pas les fichiers .css, .js et multimédia et n'autorise que les pages du domaine ics. La fonction visit est appelée après le téléchargement réussi du contenu d'une URL. Vous pouvez facilement obtenir l'URL, le texte, les liens, le code HTML et l'identifiant unique de la page téléchargée. Vous devez également implémenter une classe de contrôleur qui spécifie les graines du crawl, le dossier dans lequel les données de crawl intermédiaires doivent être stockées et le nombre de threads simultanés.
Caractéristiques
- Vous devez également implémenter une classe de contrôleur qui spécifie les graines du crawl, le dossier dans lequel les données de crawl intermédiaires doivent être stockées et le nombre de threads simultanés :
- Par défaut, il n'y a pas de limite à la profondeur d'exploration
- Vous pouvez activer SSL
- Activer l'exploration de contenu binaire
- crawler4j est conçu très efficacement et a la capacité d'explorer les domaines très rapidement
- La chaîne d'agent utilisateur est utilisée pour représenter votre robot d'exploration sur les serveurs Web
Langage de programmation
Java
Catégories
Il s'agit d'une application qui peut également être récupérée à partir de https://sourceforge.net/projects/crawler4j.mirror/. Il a été hébergé dans OnWorks afin d'être exécuté en ligne de la manière la plus simple à partir de l'un de nos systèmes d'exploitation gratuits.