English프랑스어스페인어

온웍스 파비콘

Linux용 crawler4j 다운로드

온라인 Ubuntu, Fedora 온라인 또는 Debian 온라인에서 실행할 수 있는 무료 다운로드 crawler4j Linux 앱

이것은 최신 릴리스를 4.zip으로 다운로드할 수 있는 crawler4.4.0j라는 Linux 앱입니다. 워크스테이션용 무료 호스팅 제공업체 OnWorks에서 온라인으로 실행할 수 있습니다.

OnWorks와 함께 crawler4j라는 이름의 이 앱을 무료로 온라인으로 다운로드하여 실행하십시오.

이 앱을 실행하려면 다음 지침을 따르세요.

- 1. 이 애플리케이션을 PC에 다운로드했습니다.

- 2. 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX에 원하는 사용자 이름을 입력합니다.

- 3. 이러한 파일 관리자에서 이 응용 프로그램을 업로드합니다.

- 4. 이 웹사이트에서 OnWorks Linux 온라인 또는 Windows 온라인 에뮬레이터 또는 MACOS 온라인 에뮬레이터를 시작합니다.

- 5. 방금 시작한 OnWorks Linux OS에서 원하는 사용자 이름으로 파일 관리자 https://www.onworks.net/myfiles.php?username=XXXXX로 이동합니다.

- 6. 응용 프로그램을 다운로드하여 설치하고 실행합니다.

스크린 샷

Ad


크롤러 4j


기술

crawler4j는 웹 크롤링을 위한 간단한 인터페이스를 제공하는 Java용 오픈 소스 웹 크롤러입니다. 이를 사용하면 몇 분 안에 다중 스레드 웹 크롤러를 설정할 수 있습니다. WebCrawler를 확장하는 크롤러 클래스를 생성해야 합니다. 이 클래스는 크롤링해야 하는 URL을 결정하고 다운로드한 페이지를 처리합니다. shouldVisit 함수는 주어진 URL을 크롤링할지 여부를 결정합니다. 위의 예에서 이 예는 .css, .js 및 미디어 파일을 허용하지 않고 ics 도메인 내의 페이지만 허용합니다. 방문 기능은 URL의 내용이 성공적으로 다운로드된 후 호출됩니다. 다운로드한 페이지의 url, text, link, html, unique id를 쉽게 얻을 수 있습니다. 크롤링의 시드, 중간 크롤링 데이터를 저장해야 하는 폴더 및 동시 스레드 수를 지정하는 컨트롤러 클래스도 구현해야 합니다.



기능

  • 크롤링의 시드, 중간 크롤링 데이터를 저장해야 하는 폴더 및 동시 스레드 수를 지정하는 컨트롤러 클래스도 구현해야 합니다.
  • 기본적으로 크롤링 깊이에는 제한이 없습니다.
  • SSL을 활성화할 수 있습니다.
  • 바이너리 콘텐츠 크롤링 활성화
  • crawler4j는 매우 효율적으로 설계되었으며 도메인을 매우 빠르게 크롤링할 수 있습니다.
  • 사용자 에이전트 문자열은 웹 서버에 크롤러를 나타내는 데 사용됩니다.


프로그래밍 언어

자바


카테고리

웹 서비스

이것은 https://sourceforge.net/projects/crawler4j.mirror/에서도 가져올 수 있는 애플리케이션입니다. 무료 운영 체제 중 하나에서 가장 쉬운 방법으로 온라인으로 실행하기 위해 OnWorks에서 호스팅되었습니다.


무료 서버 및 워크스테이션

Windows 및 Linux 앱 다운로드

Linux 명령

Ad