Dit is de Linux-app genaamd crawler4j waarvan de nieuwste release kan worden gedownload als 4.4.0.zip. Het kan online worden uitgevoerd in de gratis hostingprovider OnWorks voor werkstations.
Download en gebruik deze app met de naam crawler4j gratis online met OnWorks.
Volg deze instructies om deze app uit te voeren:
- 1. Download deze applicatie op uw pc.
- 2. Voer in onze bestandsbeheerder https://www.onworks.net/myfiles.php?username=XXXXX in met de gebruikersnaam die u wilt.
- 3. Upload deze applicatie in zo'n bestandsbeheerder.
- 4. Start de OnWorks Linux online of Windows online emulator of MACOS online emulator vanaf deze website.
- 5. Ga vanuit het OnWorks Linux-besturingssysteem dat u zojuist hebt gestart naar onze bestandsbeheerder https://www.onworks.net/myfiles.php?username=XXXXX met de gewenste gebruikersnaam.
- 6. Download de applicatie, installeer hem en voer hem uit.
SCREENSHOTS
Ad
crawler4j
PRODUCTBESCHRIJVING
crawler4j is een open source webcrawler voor Java die een eenvoudige interface biedt voor het crawlen van het web. Hiermee kunt u binnen enkele minuten een multi-threaded webcrawler opzetten. U moet een crawlerklasse maken die WebCrawler uitbreidt. Deze klasse beslist welke URL's moeten worden gecrawld en handelt de gedownloade pagina af. ShouldVisit-functie beslist of de opgegeven URL moet worden gecrawld of niet. In het bovenstaande voorbeeld staat dit voorbeeld geen .css-, .js- en mediabestanden toe en alleen pagina's binnen het ics-domein. bezoekfunctie wordt aangeroepen nadat de inhoud van een URL met succes is gedownload. U kunt eenvoudig de url, tekst, links, html en unieke id van de gedownloade pagina krijgen. U moet ook een controllerklasse implementeren die de zaden van de crawl specificeert, de map waarin tussentijdse crawlgegevens moeten worden opgeslagen en het aantal gelijktijdige threads.
Kenmerken
- U moet ook een controllerklasse implementeren die de zaden van de crawl specificeert, de map waarin tussentijdse crawlgegevens moeten worden opgeslagen en het aantal gelijktijdige threads:
- Standaard is er geen limiet voor de crawldiepte
- U kunt SSL inschakelen
- Het crawlen van binaire inhoud inschakelen
- crawler4j is zeer efficiënt ontworpen en heeft de mogelijkheid om zeer snel domeinen te crawlen
- User-agent string wordt gebruikt om uw crawler voor webservers weer te geven
Programmeertaal
Java
Categorieën
Dit is een applicatie die ook kan worden opgehaald van https://sourceforge.net/projects/crawler4j.mirror/. Het is gehost in OnWorks om op een gemakkelijkste manier online te kunnen worden uitgevoerd vanuit een van onze gratis besturingssystemen.