文章/答案/技术大牛

发布

社区首页 >问答首页 >Import.io -它能取代Kimonolabs吗？

问Import.io -它能取代Kimonolabs吗？
EN

Stack Overflow用户

提问于 2016-02-16 09:38:59

回答 4查看 567关注 0票数 2

我现在使用Kimonolabs从有相同目标的网站上抓取数据。为了简单起见，让我们说这些网站是网上销售东西的在线商店(实际上，它们是有在线申请可能性的求职网站，但从技术上讲，它看起来很像一个网店)。

这个很好用。每个网站都会创建一个刮板- API，通过可用的高级搜索页面来抓取所有产品-URL。让我们把这个API称为“URL列表”。然后，为产品详细信息页创建一个“product”，该页面可以抓取所有必要的元素。例如标题、产品文本和规格，如品牌、类别等。产品API被设置为每天使用“URL列表”中收集的所有URL进行爬行。

然后，使用我们自己的服务使用Kimonolabs JSON端点获取所有产品的收集信息。

然而，Kimonolabs将于2016年2月底退出服务。所以，我在寻找一个简单的替代方案。我一直在看import.io，但我想知道：

它是否支持自动更新(允许API每小时/每天/等)？
它是否支持从分页高级搜索页面获取所有产品-URL？

我在摆弄服务。基本上，它似乎是通过与Kimonolabs相同的简单过程来提取数据。只是，我不清楚是否支持为产品API分页URL的必要性，并自动保持它的最新。

如果import.io是一个有用的替代方案，这里的任何import.io用户都可以给出建议吗？也许能给出一些正确方向的指点？

web-scraping

import.io

回答 4

Stack Overflow用户

发布于 2016-02-17 13:35:39

调查波西亚。这是一个像Kimono一样工作的开源视觉抓取工具。

Portia也可以作为一个服务提供，它满足了您对import.io的要求：

自动更新，通过安排定期作业来爬行您想要的页面，使您的数据保持最新。
通过分页链接导航，基于您可以定义的URL模式。

完全披露:我在Portia的首席维护者Scrapinghub工作。

票数 3

Stack Overflow用户

发布于 2016-07-13 16:14:08

也许你想让抽象派试一试。这是一个免费的web抓取工具，允许您创建端点，提取任何信息并以JSON返回信息。它可以轻松地处理分页搜索。

如果您了解一些JS，就可以编写CasperJS端点，并集成提取数据所需的任何逻辑。它有一个与Kimonolabs相似的目标，并且能够解决同样的问题(如果不是更多的话，因为它是可编程的)。

如果抽象派不能解决您的需求，您可以查看其他市场参与者，它们的目标是类似的目标：

Import.io (正如您已经提到的)
莫兹达
云刮
TrooclickAPI
FiveFilters

免责声明:我是Extracty公司的联合创始人。

票数 2

Stack Overflow用户

发布于 2016-02-16 15:43:03

我不太喜欢Import.io，但在我看来，它允许通过批量输入urls进行分页。读这里。

到目前为止，在使整个网站通过API方面没有取得多大进展：

链接多个API/Dataset目前还不可能完全自动化使用连锁API提取整个网站。例如，如果我希望在类别页或分页列表中找到数据。我首先必须创建一个URL列表，运行大容量解压缩，将结果保存为导入数据集，然后将其链接到另一个Extractor.Once设置一次，我希望能够在一次单击中更自动地完成此操作。

如果你对JS很熟悉，你可能会发现这很有用。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/35428809

复制

相似问题

问Import.io -它能取代Kimonolabs吗？
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Import.io -它能取代Kimonolabs吗？EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Import.io -它能取代Kimonolabs吗？
EN