Đây là ứng dụng Linux có tên Scrapy có bản phát hành mới nhất có thể được tải xuống dưới dạng 2.11.0sourcecode.zip. Nó có thể được chạy trực tuyến trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks dành cho máy trạm.
Tải xuống và chạy trực tuyến ứng dụng có tên Scrapy với OnWorks này miễn phí.
Làm theo các hướng dẫn sau để chạy ứng dụng này:
- 1. Đã tải ứng dụng này xuống PC của bạn.
- 2. Nhập vào trình quản lý tệp của chúng tôi https://www.onworks.net/myfiles.php?username=XXXXX với tên người dùng mà bạn muốn.
- 3. Tải lên ứng dụng này trong trình quản lý tệp như vậy.
- 4. Khởi động trình giả lập trực tuyến OnWorks Linux hoặc trình giả lập trực tuyến Windows hoặc trình mô phỏng trực tuyến MACOS từ trang web này.
- 5. Từ Hệ điều hành OnWorks Linux mà bạn vừa khởi động, hãy truy cập trình quản lý tệp của chúng tôi https://www.onworks.net/myfiles.php?username=XXXXX với tên người dùng mà bạn muốn.
- 6. Tải xuống ứng dụng, cài đặt và chạy nó.
MÀN HÌNH
Ad
Trị liệu
MÔ TẢ
Scrapy là một khung cấp cao, mã nguồn mở, nhanh chóng để thu thập dữ liệu các trang web và trích xuất dữ liệu có cấu trúc từ các trang web này. Di động và được viết bằng Python, nó có thể chạy trên Windows, Linux, macOS và BSD.
Liệu pháp trị liệu mạnh mẽ, nhanh chóng và đơn giản, và cũng có thể dễ dàng mở rộng. Chỉ cần viết các quy tắc để trích xuất dữ liệu và thêm chức năng mới nếu bạn muốn mà không cần phải chạm vào lõi. Liệu pháp làm phần còn lại và có thể được sử dụng trong một số ứng dụng. Nó có thể được sử dụng để khai thác dữ liệu, giám sát và kiểm tra tự động.
Tính năng
- Hỗ trợ tích hợp cho việc lựa chọn và trích xuất dữ liệu từ các nguồn HTML / XML thông qua các biểu thức XPath mở rộng và bộ chọn CSS, với các phương thức trợ giúp để trích xuất bằng cách sử dụng các biểu thức chính quy
- Bảng điều khiển shell tương tác để sử dụng các biểu thức CSS và XPath để quét dữ liệu
- Hỗ trợ tích hợp để tạo xuất nguồn cấp dữ liệu ở một số định dạng khác nhau (JSON, XML, CSV) và lưu trữ chúng trong các phụ trợ khác nhau (S3, FTP, hệ thống tệp cục bộ)
- Hỗ trợ mã hóa và tự động phát hiện
- Hỗ trợ khả năng mở rộng mạnh mẽ
- Nhiều tiện ích mở rộng và phần mềm trung gian được tích hợp sẵn cho cookie và xử lý phiên, robots.txt, giới hạn độ sâu thu thập thông tin và hơn thế nữa
- Bảng điều khiển Telnet để kết nối với bảng điều khiển Python chạy bên trong quy trình Scrapy của bạn
- Trình thu thập dữ liệu có thể tái sử dụng, đường ống dẫn phương tiện, trình phân giải DNS trong bộ nhớ đệm và hơn thế nữa
Ngôn ngữ lập trình
Python
Danh Mục
Đây là một ứng dụng cũng có thể được tìm nạp từ https://sourceforge.net/projects/scrapy.mirror/. Nó đã được lưu trữ trên OnWorks để có thể chạy trực tuyến một cách dễ dàng nhất từ một trong những Hệ thống hoạt động miễn phí của chúng tôi.