Il s'agit de l'application Linux nommée crwlr dont la dernière version peut être téléchargée en tant que v1.2.2.zip. Il peut être exécuté en ligne dans le fournisseur d'hébergement gratuit OnWorks pour les postes de travail.
Téléchargez et exécutez en ligne cette application nommée crwlr avec OnWorks gratuitement.
Suivez ces instructions pour exécuter cette application :
- 1. Téléchargé cette application sur votre PC.
- 2. Entrez dans notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous voulez.
- 3. Téléchargez cette application dans ce gestionnaire de fichiers.
- 4. Démarrez l'émulateur en ligne OnWorks Linux ou Windows en ligne ou l'émulateur en ligne MACOS à partir de ce site Web.
- 5. Depuis le système d'exploitation OnWorks Linux que vous venez de démarrer, accédez à notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous souhaitez.
- 6. Téléchargez l'application, installez-la et exécutez-la.
CAPTURES D'ÉCRAN
Ad
crwlr
DESCRIPTION
Cette bibliothèque fournit une sorte de cadre et de nombreuses étapes prêtes à l'emploi, que vous pouvez utiliser comme blocs de construction, pour créer vos propres crawlers et scrapers. Avant de plonger dans la bibliothèque, regardons les termes crawling et scraping. Pour la plupart des cas d'utilisation réels, ces deux choses vont de pair, c'est pourquoi cette bibliothèque aide et combine les deux. Un robot d'exploration (Web) est un programme qui (télé)charge des documents et suit les liens qu'il contient pour les charger également. Un robot d'exploration pourrait simplement charger en fait tous les liens qu'il trouve (et est autorisé à charger selon le fichier robots.txt), puis il chargerait simplement tout Internet (si les URL par lesquelles il commence ne sont pas sans issue). Ou il peut être restreint pour charger uniquement les liens correspondant à certains critères (sur le même domaine/hôte, le chemin URL commence par "/foo",...) ou seulement à une certaine profondeur. Une profondeur de 3 signifie 3 niveaux de profondeur. Les liens trouvés sur les URL initiales fournies au crawler sont de niveau 1 et ainsi de suite.
Caractéristiques
- Crawler Politesse (respect du robots.txt, throttling,...)
- Obtenir des liens absolus à partir de documents HTML
- Obtenez des sitemaps à partir de robots.txt et obtenez toutes les URL de ces sitemaps
- Explorer (charger) toutes les pages d'un site Web
- Utilisez n'importe quelle méthode HTTP (GET, POST,...) et envoyez n'importe quel en-tête ou corps
- Itérer sur des pages de liste paginées
Langage de programmation
PHP
Catégories
Il s'agit d'une application qui peut également être récupérée à partir de https://sourceforge.net/projects/crwlr.mirror/. Il a été hébergé dans OnWorks afin d'être exécuté en ligne de la manière la plus simple à partir de l'un de nos systèmes d'exploitation gratuits.