这是名为 Scrapy 的 Linux 应用程序,其最新版本可以作为 2.11.0sourcecode.zip 下载。 它可以在免费的工作站托管提供商 OnWorks 中在线运行。
免费下载并在线运行这个名为 Scrapy 的应用程序。
请按照以下说明运行此应用程序:
- 1. 在您的 PC 中下载此应用程序。
- 2. 在我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX 中输入您想要的用户名。
- 3. 在这样的文件管理器中上传这个应用程序。
- 4. 从此网站启动OnWorks Linux online 或Windows online emulator 或MACOS online emulator。
- 5. 从您刚刚启动的 OnWorks Linux 操作系统,使用您想要的用户名转到我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX。
- 6. 下载应用程序,安装并运行。
截图:
Scrapy
描述:
Scrapy 是一个快速、开源的高级框架,用于抓取网站并从这些网站中提取结构化数据。 可移植并用 Python 编写,它可以在 Windows、Linux、macOS 和 BSD 上运行。
Scrapy 功能强大、快速且简单,而且易于扩展。 只需编写规则来提取数据,并根据需要添加新功能,而无需触及核心。 Scrapy 会完成剩下的工作,并且可以在许多应用程序中使用。 它可用于数据挖掘、监控和自动化测试。
产品优势
- 内置支持通过扩展的 XPath 表达式和 CSS 选择器从 HTML/XML 源中选择和提取数据,以及使用正则表达式提取的辅助方法
- 交互式 shell 控制台,用于使用 CSS 和 XPath 表达式来抓取数据
- 内置支持以多种不同格式(JSON、XML、CSV)生成提要导出及其在各种后端(S3、FTP、本地文件系统)中的存储
- 支持编码和自动检测
- 强大的可扩展性支持
- 大量用于 cookie 和会话处理、robots.txt、爬网深度限制等的内置扩展和中间件
- Telnet 控制台连接到在 Scrapy 进程中运行的 Python 控制台
- 可重用蜘蛛、媒体管道、缓存 DNS 解析器等
程式语言
Python
分类
这是一个也可以从 https://sourceforge.net/projects/scrapy.mirror/ 获取的应用程序。 它已托管在 OnWorks 中,以便从我们的免费操作系统之一以最简单的方式在线运行。