Đây là ứng dụng Linux có tên Trafilatura, bản phát hành mới nhất có thể được tải xuống dưới dạng trafilatura-1.6.2.zip. Nó có thể được chạy trực tuyến trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks dành cho máy trạm.
Tải xuống và chạy trực tuyến ứng dụng này có tên Trafilatura với OnWorks miễn phí.
Làm theo các hướng dẫn sau để chạy ứng dụng này:
- 1. Đã tải ứng dụng này xuống PC của bạn.
- 2. Nhập vào trình quản lý tệp của chúng tôi https://www.onworks.net/myfiles.php?username=XXXXX với tên người dùng mà bạn muốn.
- 3. Tải lên ứng dụng này trong trình quản lý tệp như vậy.
- 4. Khởi động trình giả lập trực tuyến OnWorks Linux hoặc trình giả lập trực tuyến Windows hoặc trình mô phỏng trực tuyến MACOS từ trang web này.
- 5. Từ Hệ điều hành OnWorks Linux mà bạn vừa khởi động, hãy truy cập trình quản lý tệp của chúng tôi https://www.onworks.net/myfiles.php?username=XXXXX với tên người dùng mà bạn muốn.
- 6. Tải xuống ứng dụng, cài đặt và chạy nó.
MÀN HÌNH
Ad
Trafilatura
MÔ TẢ
Trafilatura là một gói Python và công cụ dòng lệnh được thiết kế để thu thập văn bản trên Web. Nó bao gồm các thành phần khám phá, trích xuất và xử lý văn bản. Các ứng dụng chính của nó là thu thập thông tin trên web, tải xuống, thu thập dữ liệu và trích xuất các văn bản, siêu dữ liệu và nhận xét chính. Nó nhằm mục đích luôn tiện dụng và theo mô-đun: không cần cơ sở dữ liệu, đầu ra có thể được chuyển đổi sang nhiều định dạng thường được sử dụng khác nhau. Chuyển từ HTML thô sang các phần thiết yếu có thể giảm bớt nhiều vấn đề liên quan đến chất lượng văn bản, trước tiên bằng cách tránh nhiễu do các phần tử lặp lại (đầu trang, chân trang, liên kết/danh sách blog, v.v.) và thứ hai bằng cách bao gồm thông tin như tác giả và ngày tháng để tạo ra cảm giác của dữ liệu. Trình trích xuất cố gắng đạt được sự cân bằng giữa việc hạn chế tiếng ồn (độ chính xác) và bao gồm tất cả các phần hợp lệ (thu hồi). Nó cũng phải mạnh mẽ và có tốc độ hợp lý, nó chạy trên hàng triệu tài liệu.
Tính năng
- Thu thập dữ liệu web và khám phá văn bản
- Xử lý liền mạch và song song, trực tuyến và ngoại tuyến
- Khai thác mạnh mẽ và hiệu quả
- Văn bản chính (với LXML, các mẫu phổ biến và thuật toán chung: jusText, nhánh của khả năng đọc-lxml)
- URL, tệp HTML hoặc cây HTML được phân tích cú pháp có thể sử dụng làm đầu vào
- Xử lý hàng đợi tải xuống hiệu quả và lịch sự
Ngôn ngữ lập trình
Python
Danh Mục
Đây là một ứng dụng cũng có thể được tải xuống từ https://sourceforge.net/projects/trafilatura.mirror/. Nó đã được lưu trữ trên OnWorks để có thể chạy trực tuyến một cách dễ dàng nhất từ một trong các Hệ điều hành miễn phí của chúng tôi.