Đây là ứng dụng Linux có tên Crawlab có bản phát hành mới nhất có thể được tải xuống dưới dạng v0.6.3.zip. Nó có thể được chạy trực tuyến trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks dành cho máy trạm.
Tải xuống và chạy trực tuyến ứng dụng này có tên Crawlab with OnWorks miễn phí.
Làm theo các hướng dẫn sau để chạy ứng dụng này:
- 1. Đã tải ứng dụng này xuống PC của bạn.
- 2. Nhập vào trình quản lý tệp của chúng tôi https://www.onworks.net/myfiles.php?username=XXXXX với tên người dùng mà bạn muốn.
- 3. Tải lên ứng dụng này trong trình quản lý tệp như vậy.
- 4. Khởi động trình giả lập trực tuyến OnWorks Linux hoặc trình giả lập trực tuyến Windows hoặc trình mô phỏng trực tuyến MACOS từ trang web này.
- 5. Từ Hệ điều hành OnWorks Linux mà bạn vừa khởi động, hãy truy cập trình quản lý tệp của chúng tôi https://www.onworks.net/myfiles.php?username=XXXXX với tên người dùng mà bạn muốn.
- 6. Tải xuống ứng dụng, cài đặt và chạy nó.
MÀN HÌNH
Ad
phòng thí nghiệm thu thập thông tin
MÔ TẢ
Nền tảng quản lý trình thu thập dữ liệu web phân tán dựa trên Golang, hỗ trợ nhiều ngôn ngữ khác nhau bao gồm Python, NodeJS, Go, Java, PHP và các khung trình thu thập dữ liệu web khác nhau bao gồm Scrapy, Puppeteer, Selenium. Vui lòng sử dụng docker-compose to one-click để khởi động. Bằng cách đó, bạn thậm chí không phải cấu hình cơ sở dữ liệu MongoDB. Ứng dụng giao diện người dùng tương tác với nút chính, nút này giao tiếp với các thành phần khác như MongoDB, SeaweedFS và nút công nhân. Nút chính và nút công nhân giao tiếp với nhau thông qua gRPC (khung RPC). Các tác vụ được lên lịch bởi mô-đun lập lịch tác vụ trong nút chính và được nhận bởi mô-đun trình xử lý tác vụ trong các nút worker, mô-đun này sẽ thực thi các tác vụ này trong trình chạy tác vụ. Trình chạy tác vụ thực chất là các tiến trình chạy chương trình nhện hoặc trình thu thập thông tin và cũng có thể gửi dữ liệu qua gRPC (tích hợp trong SDK) tới các nguồn dữ liệu khác, ví dụ: MongoDB.
Tính năng
- Lập lịch tác vụ
- Quản lý và giao tiếp nút công nhân
- triển khai nhện
- Dịch vụ giao diện người dùng và API
- Thực thi tác vụ (bạn có thể coi Nút chính là Nút công nhân)
- Tích hợp với các Framework khác
Ngôn ngữ lập trình
Python, PHP, Java, Go
Danh Mục
Đây là một ứng dụng cũng có thể được tìm nạp từ https://sourceforge.net/projects/crawlab.mirror/. Nó đã được lưu trữ trong OnWorks để có thể chạy trực tuyến theo cách dễ dàng nhất từ một trong các Hệ điều hành miễn phí của chúng tôi.