Это приложение для Linux с именем crawler4j, последнюю версию которого можно загрузить как 4.4.0.zip. Его можно запустить онлайн на бесплатном хостинг-провайдере OnWorks для рабочих станций.
Загрузите и запустите бесплатно онлайн это приложение с именем Crawler4j с OnWorks.
Следуйте этим инструкциям, чтобы запустить это приложение:
- 1. Загрузил это приложение на свой компьютер.
- 2. Введите в нашем файловом менеджере https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.
- 3. Загрузите это приложение в такой файловый менеджер.
- 4. Запустите онлайн-эмулятор OnWorks Linux или Windows или онлайн-эмулятор MACOS с этого веб-сайта.
- 5. В только что запущенной ОС OnWorks Linux перейдите в наш файловый менеджер https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.
- 6. Скачайте приложение, установите его и запустите.
СКРИНШОТЫ
Ad
crawler4j
ОПИСАНИЕ
Crawler4j — это веб-сканер с открытым исходным кодом для Java, который предоставляет простой интерфейс для сканирования Интернета. Используя его, вы можете настроить многопоточный поисковый робот за несколько минут. Вам нужно создать класс сканера, который расширяет WebCrawler. Этот класс решает, какие URL-адреса следует сканировать, и обрабатывает загруженную страницу. Функция shouldVisit решает, следует ли сканировать данный URL-адрес или нет. В приведенном выше примере этот пример не разрешает файлы .css, .js и мультимедиа и разрешает только страницы в домене ics. функция посещения вызывается после успешной загрузки содержимого URL-адреса. Вы можете легко получить URL, текст, ссылки, HTML и уникальный идентификатор загруженной страницы. Вы также должны реализовать класс контроллера, который определяет исходные значения обхода, папку, в которой должны храниться промежуточные данные обхода, и количество одновременных потоков.
Особенности
- Вы также должны реализовать класс контроллера, который определяет начальные значения обхода, папку, в которой должны храниться промежуточные данные обхода, и количество одновременных потоков:
- По умолчанию нет ограничений на глубину сканирования
- Вы можете включить SSL
- Включить сканирование двоичного содержимого
- Crawler4j спроектирован очень эффективно и может очень быстро сканировать домены.
- Строка агента пользователя используется для представления вашего поискового робота на веб-серверах.
Язык программирования
Java
Категории
Это приложение также можно загрузить с https://sourceforge.net/projects/crawler4j.mirror/. Он был размещен в OnWorks, чтобы его можно было легко запускать в Интернете с помощью одной из наших бесплатных операционных систем.