tải xuống crwlr cho Linux

Đây là ứng dụng Linux có tên crwlr có bản phát hành mới nhất có thể được tải xuống dưới dạng v1.2.2.zip. Nó có thể được chạy trực tuyến trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks dành cho máy trạm.

 
 

Tải xuống và chạy trực tuyến ứng dụng có tên crwlr này với OnWorks miễn phí.

Làm theo các hướng dẫn sau để chạy ứng dụng này:

- 1. Đã tải ứng dụng này xuống PC của bạn.

- 2. Nhập vào trình quản lý tệp của chúng tôi https://www.onworks.net/myfiles.php?username=XXXXX với tên người dùng mà bạn muốn.

- 3. Tải lên ứng dụng này trong trình quản lý tệp như vậy.

- 4. Khởi động trình giả lập trực tuyến OnWorks Linux hoặc trình giả lập trực tuyến Windows hoặc trình mô phỏng trực tuyến MACOS từ trang web này.

- 5. Từ Hệ điều hành OnWorks Linux mà bạn vừa khởi động, hãy truy cập trình quản lý tệp của chúng tôi https://www.onworks.net/myfiles.php?username=XXXXX với tên người dùng mà bạn muốn.

- 6. Tải xuống ứng dụng, cài đặt và chạy nó.

MÀN HÌNH:


thu thập thông tin


SỰ MIÊU TẢ:

Thư viện này cung cấp một loại khung và rất nhiều bước sẵn sàng để sử dụng, được gọi là các bước, mà bạn có thể sử dụng làm khối xây dựng để xây dựng trình thu thập thông tin và trình dọn dẹp của riêng mình. Trước khi đi sâu vào thư viện, chúng ta hãy xem xét các thuật ngữ thu thập thông tin và thu thập dữ liệu. Đối với hầu hết các trường hợp sử dụng trong thế giới thực, hai thứ đó luôn song hành với nhau, đó là lý do tại sao thư viện này hỗ trợ và kết hợp cả hai. Trình thu thập thông tin (web) là một chương trình tải (tải xuống) tài liệu và đi theo các liên kết trong đó để tải chúng. Trên thực tế, trình thu thập thông tin có thể tải tất cả các liên kết mà nó tìm thấy (và được phép tải theo tệp robots.txt), sau đó nó sẽ chỉ tải toàn bộ Internet (nếu (các) URL mà nó bắt đầu không có ngõ cụt). Hoặc có thể bị hạn chế chỉ tải các liên kết phù hợp với tiêu chí nhất định (trên cùng một tên miền/máy chủ, đường dẫn URL bắt đầu bằng "/foo",...) hoặc chỉ ở một độ sâu nhất định. Độ sâu 3 có nghĩa là sâu 3 cấp độ. Các liên kết được tìm thấy trên các URL ban đầu được cung cấp cho trình thu thập thông tin là cấp 1, v.v.



Tính năng

  • Tính lịch sự của trình thu thập thông tin (tôn trọng robots.txt, điều tiết,...)
  • Nhận liên kết tuyệt đối từ tài liệu HTML
  • Nhận sơ đồ trang web từ robots.txt và nhận tất cả URL từ các sơ đồ trang web đó
  • Thu thập dữ liệu (tải) tất cả các trang của một trang web
  • Sử dụng bất kỳ phương thức HTTP nào (GET, POST,...) và gửi bất kỳ tiêu đề hoặc nội dung nào
  • Lặp lại các trang danh sách được phân trang


Ngôn ngữ lập trình

PHP


Categories

Trình quét web

Đây là một ứng dụng cũng có thể được tải xuống từ https://sourceforge.net/projects/crwlr.mirror/. Nó đã được lưu trữ trên OnWorks để có thể chạy trực tuyến một cách dễ dàng nhất từ ​​một trong các Hệ điều hành miễn phí của chúng tôi.



Các chương trình trực tuyến Linux & Windows mới nhất


Danh mục tải xuống Phần mềm & Chương trình cho Windows & Linux