Đây là ứng dụng Windows có tên Trafilatura, bản phát hành mới nhất có thể được tải xuống dưới dạng trafilatura-1.6.2.zip. Nó có thể được chạy trực tuyến trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks dành cho máy trạm.
Tải xuống và chạy trực tuyến ứng dụng này có tên Trafilatura với OnWorks miễn phí.
Làm theo các hướng dẫn sau để chạy ứng dụng này:
- 1. Đã tải ứng dụng này xuống PC của bạn.
- 2. Nhập vào trình quản lý tệp của chúng tôi https://www.onworks.net/myfiles.php?username=XXXXX với tên người dùng mà bạn muốn.
- 3. Tải lên ứng dụng này trong trình quản lý tệp như vậy.
- 4. Khởi động bất kỳ trình giả lập trực tuyến OS OnWorks nào từ trang web này, nhưng trình giả lập trực tuyến Windows tốt hơn.
- 5. Từ Hệ điều hành Windows OnWorks bạn vừa khởi động, hãy truy cập trình quản lý tệp của chúng tôi https://www.onworks.net/myfiles.php?username=XXXXX với tên người dùng mà bạn muốn.
- 6. Tải xuống ứng dụng và cài đặt nó.
- 7. Tải xuống Wine từ kho phần mềm phân phối Linux của bạn. Sau khi cài đặt, bạn có thể nhấp đúp vào ứng dụng để chạy chúng với Wine. Bạn cũng có thể thử PlayOnLinux, một giao diện đẹp mắt trên Wine sẽ giúp bạn cài đặt các chương trình và trò chơi phổ biến của Windows.
Wine là một cách để chạy phần mềm Windows trên Linux, nhưng không cần Windows. Wine là một lớp tương thích Windows mã nguồn mở có thể chạy các chương trình Windows trực tiếp trên bất kỳ máy tính để bàn Linux nào. Về cơ bản, Wine đang cố gắng triển khai lại đủ Windows từ đầu để nó có thể chạy tất cả các ứng dụng Windows đó mà không thực sự cần đến Windows.
MÀN HÌNH
Ad
Trafilatura
MÔ TẢ
Trafilatura là một gói Python và công cụ dòng lệnh được thiết kế để thu thập văn bản trên Web. Nó bao gồm các thành phần khám phá, trích xuất và xử lý văn bản. Các ứng dụng chính của nó là thu thập thông tin trên web, tải xuống, thu thập dữ liệu và trích xuất các văn bản, siêu dữ liệu và nhận xét chính. Nó nhằm mục đích luôn tiện dụng và theo mô-đun: không cần cơ sở dữ liệu, đầu ra có thể được chuyển đổi sang nhiều định dạng thường được sử dụng khác nhau. Chuyển từ HTML thô sang các phần thiết yếu có thể giảm bớt nhiều vấn đề liên quan đến chất lượng văn bản, trước tiên bằng cách tránh nhiễu do các phần tử lặp lại (đầu trang, chân trang, liên kết/danh sách blog, v.v.) và thứ hai bằng cách bao gồm thông tin như tác giả và ngày tháng để tạo ra cảm giác của dữ liệu. Trình trích xuất cố gắng đạt được sự cân bằng giữa việc hạn chế tiếng ồn (độ chính xác) và bao gồm tất cả các phần hợp lệ (thu hồi). Nó cũng phải mạnh mẽ và có tốc độ hợp lý, nó chạy trên hàng triệu tài liệu.
Tính năng
- Thu thập dữ liệu web và khám phá văn bản
- Xử lý liền mạch và song song, trực tuyến và ngoại tuyến
- Khai thác mạnh mẽ và hiệu quả
- Văn bản chính (với LXML, các mẫu phổ biến và thuật toán chung: jusText, nhánh của khả năng đọc-lxml)
- URL, tệp HTML hoặc cây HTML được phân tích cú pháp có thể sử dụng làm đầu vào
- Xử lý hàng đợi tải xuống hiệu quả và lịch sự
Ngôn ngữ lập trình
Python
Categories
Đây là một ứng dụng cũng có thể được tải xuống từ https://sourceforge.net/projects/trafilatura.mirror/. Nó đã được lưu trữ trên OnWorks để có thể chạy trực tuyến một cách dễ dàng nhất từ một trong các Hệ điều hành miễn phí của chúng tôi.