首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Import.io -它能取代Kimonolabs吗?

Import.io -它能取代Kimonolabs吗?
EN

Stack Overflow用户
提问于 2016-02-16 09:38:59
回答 4查看 567关注 0票数 2

我现在使用Kimonolabs从有相同目标的网站上抓取数据。为了简单起见,让我们说这些网站是网上销售东西的在线商店(实际上,它们是有在线申请可能性的求职网站,但从技术上讲,它看起来很像一个网店)。

这个很好用。每个网站都会创建一个刮板- API,通过可用的高级搜索页面来抓取所有产品-URL。让我们把这个API称为“URL列表”。然后,为产品详细信息页创建一个“product”,该页面可以抓取所有必要的元素。例如标题、产品文本和规格,如品牌、类别等。产品API被设置为每天使用“URL列表”中收集的所有URL进行爬行。

然后,使用我们自己的服务使用Kimonolabs JSON端点获取所有产品的收集信息。

然而,Kimonolabs将于2016年2月底退出服务。所以,我在寻找一个简单的替代方案。我一直在看import.io,但我想知道:

  • 它是否支持自动更新(允许API每小时/每天/等)?
  • 它是否支持从分页高级搜索页面获取所有产品-URL?

我在摆弄服务。基本上,它似乎是通过与Kimonolabs相同的简单过程来提取数据。只是,我不清楚是否支持为产品API分页URL的必要性,并自动保持它的最新。

如果import.io是一个有用的替代方案,这里的任何import.io用户都可以给出建议吗?也许能给出一些正确方向的指点?

EN

回答 4

Stack Overflow用户

发布于 2016-02-17 13:35:39

调查波西亚。这是一个像Kimono一样工作的开源视觉抓取工具。

Portia也可以作为一个服务提供,它满足了您对import.io的要求:

  • 自动更新,通过安排定期作业来爬行您想要的页面,使您的数据保持最新。
  • 通过分页链接导航,基于您可以定义的URL模式。

完全披露:我在Portia的首席维护者Scrapinghub工作。

票数 3
EN

Stack Overflow用户

发布于 2016-07-13 16:14:08

也许你想让抽象派试一试。这是一个免费的web抓取工具,允许您创建端点,提取任何信息并以JSON返回信息。它可以轻松地处理分页搜索。

如果您了解一些JS,就可以编写CasperJS端点,并集成提取数据所需的任何逻辑。它有一个与Kimonolabs相似的目标,并且能够解决同样的问题(如果不是更多的话,因为它是可编程的)。

如果抽象派不能解决您的需求,您可以查看其他市场参与者,它们的目标是类似的目标:

  • Import.io (正如您已经提到的)
  • 莫兹达
  • 云刮
  • TrooclickAPI
  • FiveFilters

免责声明:我是Extracty公司的联合创始人。

票数 2
EN

Stack Overflow用户

发布于 2016-02-16 15:43:03

我不太喜欢Import.io,但在我看来,它允许通过批量输入urls进行分页。读这里

到目前为止,在使整个网站通过API方面没有取得多大进展:

链接多个API/Dataset目前还不可能完全自动化使用连锁API提取整个网站。例如,如果我希望在类别页或分页列表中找到数据。我首先必须创建一个URL列表,运行大容量解压缩,将结果保存为导入数据集,然后将其链接到另一个Extractor.Once设置一次,我希望能够在一次单击中更自动地完成此操作。

如果你对JS很熟悉,你可能会发现很有用。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35428809

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档