Это приложение для Linux под названием crwlr, последнюю версию которого можно загрузить как v1.2.2.zip. Его можно запустить онлайн на бесплатном хостинг-провайдере OnWorks для рабочих станций.
Загрузите и запустите онлайн это приложение под названием crwlr бесплатно с OnWorks.
Следуйте этим инструкциям, чтобы запустить это приложение:
- 1. Загрузил это приложение на свой компьютер.
- 2. Введите в нашем файловом менеджере https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.
- 3. Загрузите это приложение в такой файловый менеджер.
- 4. Запустите онлайн-эмулятор OnWorks Linux или Windows или онлайн-эмулятор MACOS с этого веб-сайта.
- 5. В только что запущенной ОС OnWorks Linux перейдите в наш файловый менеджер https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.
- 6. Скачайте приложение, установите его и запустите.
СКРИНШОТЫ
Ad
ползать
ОПИСАНИЕ
Эта библиотека предоставляет своего рода структуру и множество готовых к использованию, так называемых шагов, которые вы можете использовать в качестве строительных блоков для создания собственных сканеров и парсеров. Прежде чем погрузиться в библиотеку, давайте взглянем на термины сканирование и парсинг. В большинстве реальных случаев эти две вещи идут рука об руку, поэтому эта библиотека помогает и сочетает в себе обе. (Веб-сканер) — это программа, которая (скачивает) загружает документы и переходит по ссылкам в нем, чтобы загрузить их. Сканер может просто загрузить фактически все ссылки, которые он находит (и разрешено загружать в соответствии с файлом robots.txt), затем он просто загрузит весь Интернет (если URL-адреса, с которых он начинается, не являются тупиковыми). Или можно ограничить загрузку только ссылок, соответствующих определенным критериям (на том же домене/хосте, путь URL начинается с «/foo»,...) или только до определенной глубины. Глубина 3 означает 3 уровня глубины. Ссылки, найденные на исходных URL-адресах, предоставленных сканеру, относятся к уровню 1 и так далее.
Особенности
- Вежливость краулеров (уважение robots.txt, дросселирование и т. д.)
- Получить абсолютные ссылки из документов HTML
- Получить карты сайта из robots.txt и получить все URL-адреса из этих карт сайта.
- Просканировать (загрузить) все страницы веб-сайта
- Используйте любые HTTP-методы (GET, POST,...) и отправляйте любые заголовки или тело
- Итерация по страницам списка с разбивкой на страницы
Язык программирования
PHP
Категории
Это приложение также можно загрузить с https://sourceforge.net/projects/crwlr.mirror/. Он был размещен в OnWorks, чтобы его можно было легко запускать в Интернете с помощью одной из наших бесплатных операционных систем.