이것은 최신 릴리스를 4.zip으로 다운로드할 수 있는 crawler4.4.0j라는 Linux 앱입니다. 워크스테이션용 무료 호스팅 제공업체 OnWorks에서 온라인으로 실행할 수 있습니다.
OnWorks와 함께 crawler4j라는 이름의 이 앱을 무료로 온라인으로 다운로드하여 실행하십시오.
이 앱을 실행하려면 다음 지침을 따르세요.
- 1. 이 애플리케이션을 PC에 다운로드했습니다.
- 2. 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX에 원하는 사용자 이름을 입력합니다.
- 3. 이러한 파일 관리자에서 이 응용 프로그램을 업로드합니다.
- 4. 이 웹사이트에서 OnWorks Linux 온라인 또는 Windows 온라인 에뮬레이터 또는 MACOS 온라인 에뮬레이터를 시작합니다.
- 5. 방금 시작한 OnWorks Linux OS에서 원하는 사용자 이름으로 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX로 이동합니다.
- 6. 응용 프로그램을 다운로드하여 설치하고 실행합니다.
스크린 샷
Ad
크롤러 4j
기술
crawler4j는 웹 크롤링을 위한 간단한 인터페이스를 제공하는 Java용 오픈 소스 웹 크롤러입니다. 이를 사용하면 몇 분 안에 다중 스레드 웹 크롤러를 설정할 수 있습니다. WebCrawler를 확장하는 크롤러 클래스를 생성해야 합니다. 이 클래스는 크롤링해야 하는 URL을 결정하고 다운로드한 페이지를 처리합니다. shouldVisit 함수는 주어진 URL을 크롤링할지 여부를 결정합니다. 위의 예에서 이 예는 .css, .js 및 미디어 파일을 허용하지 않고 ics 도메인 내의 페이지만 허용합니다. 방문 기능은 URL의 내용이 성공적으로 다운로드된 후 호출됩니다. 다운로드한 페이지의 url, text, link, html, unique id를 쉽게 얻을 수 있습니다. 크롤링의 시드, 중간 크롤링 데이터를 저장해야 하는 폴더 및 동시 스레드 수를 지정하는 컨트롤러 클래스도 구현해야 합니다.
기능
- 크롤링의 시드, 중간 크롤링 데이터를 저장해야 하는 폴더 및 동시 스레드 수를 지정하는 컨트롤러 클래스도 구현해야 합니다.
- 기본적으로 크롤링 깊이에는 제한이 없습니다.
- SSL을 활성화할 수 있습니다.
- 바이너리 콘텐츠 크롤링 활성화
- crawler4j는 매우 효율적으로 설계되었으며 도메인을 매우 빠르게 크롤링할 수 있습니다.
- 사용자 에이전트 문자열은 웹 서버에 크롤러를 나타내는 데 사용됩니다.
프로그래밍 언어
자바
카테고리
이것은 https://sourceforge.net/projects/crawler4j.mirror/에서도 가져올 수 있는 애플리케이션입니다. 무료 운영 체제 중 하나에서 가장 쉬운 방법으로 온라인으로 실행하기 위해 OnWorks에서 호스팅되었습니다.