这是名为 Trafilatura 的 Windows 应用程序,其最新版本可以作为 trafilatura-1.6.2.zip 下载。 它可以在免费的工作站托管提供商 OnWorks 中在线运行。
免费下载并使用 OnWorks 在线运行名为 Trafilatura 的应用程序。
请按照以下说明运行此应用程序:
- 1. 在您的 PC 中下载此应用程序。
- 2. 在我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX 中输入您想要的用户名。
- 3. 在这样的文件管理器中上传这个应用程序。
- 4. 从本网站启动任何 OS OnWorks 在线模拟器,但更好的 Windows 在线模拟器。
- 5. 从您刚刚启动的 OnWorks Windows 操作系统,使用您想要的用户名转到我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX。
- 6. 下载应用程序并安装。
- 7. 从您的 Linux 发行版软件存储库下载 Wine。 安装后,您可以双击该应用程序以使用 Wine 运行它们。 您还可以尝试 PlayOnLinux,这是 Wine 上的一个花哨界面,可帮助您安装流行的 Windows 程序和游戏。
Wine 是一种在 Linux 上运行 Windows 软件的方法,但不需要 Windows。 Wine 是一个开源的 Windows 兼容层,可以直接在任何 Linux 桌面上运行 Windows 程序。 本质上,Wine 试图从头开始重新实现足够多的 Windows,以便它可以运行所有这些 Windows 应用程序,而实际上不需要 Windows。
截图:
绘画
描述:
Trafilatura 是一个 Python 包和命令行工具,旨在收集 Web 上的文本。 它包括发现、提取和文本处理组件。 其主要应用是网络爬行、下载、抓取以及主要文本、元数据和评论的提取。 它的目标是保持方便和模块化:不需要数据库,输出可以转换为各种常用格式。 从原始 HTML 到基本部分可以缓解许多与文本质量相关的问题,首先可以避免重复出现的元素(页眉、页脚、链接/博客卷等)造成的噪音,其次可以包含作者和日期等信息,以便使内容更清晰。数据的感觉。 提取器试图在限制噪声(精度)和包含所有有效部分(召回)之间取得平衡。 它还必须强大且相当快,它在生产中运行数百万个文档。
功能
- 网络爬行和文本发现
- 在线和离线无缝并行处理
- 稳健高效的萃取
- 主要文本(带有 LXML、常见模式和通用算法:jusText、readability-lxml 的分支)
- 可用作输入的 URL、HTML 文件或已解析的 HTML 树
- 高效且礼貌地处理下载队列
程式语言
Python
分类
该应用程序也可以从 https://sourceforge.net/projects/trafilatura.mirror/ 获取。 它已托管在 OnWorks 中,以便从我们的免费操作系统之一以最简单的方式在线运行。