这是名为 go_spider 的 Linux 应用程序,其最新版本可以下载为 Version1.2.zip。 它可以在工作站的免费托管服务提供商 OnWorks 中在线运行。
使用 OnWorks 免费下载并在线运行这个名为 go_spider 的应用程序。
请按照以下说明运行此应用程序:
- 1. 在您的 PC 中下载此应用程序。
- 2. 在我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX 中输入您想要的用户名。
- 3. 在这样的文件管理器中上传这个应用程序。
- 4. 从此网站启动OnWorks Linux online 或Windows online emulator 或MACOS online emulator。
- 5. 从您刚刚启动的 OnWorks Linux 操作系统,使用您想要的用户名转到我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX。
- 6. 下载应用程序,安装并运行。
SCREENSHOTS
Ad
去蜘蛛
商品描述
一个很棒的 Go 并发爬虫(蜘蛛)框架。 爬虫是灵活的和模块化的。 它可以很容易地扩展为一个个性化的爬虫,或者您可以只使用默认的爬虫组件。 Spider 在 Scheduler 中获取到一个 Request,其中有要抓取的 url。 然后下载器下载请求的结果(html、json、jsonp、文本)。 结果保存在Page中,供PageProcesser解析。 html解析基于goquery包。 Json解析是基于简单的JSON封装。 Jsonp 将转换为 json。 文本形式表示没有解析器的纯文本内容。 PageProcesser 模块只解析结果。 模块获取结果(键值对)和下一步要抓取的 URL。 这些键值对将保存在 PageItems 中,url 将推送到 Scheduler 中。
产品优势
- 需要 Go 1.2 或更高版本
- 同时
- 适合垂直社区
- 灵活、模块化
- 原生 Go 实现
- 可以轻松扩展为个性化的爬虫
程式语言
Go
分类
这是一个也可以从 https://sourceforge.net/projects/go-spider.mirror/ 获取的应用程序。 它已托管在 OnWorks 中,以便以最简单的方式从我们的免费操作系统之一在线运行。