我现在使用Kimonolabs从有相同目标的网站上抓取数据。为了简单起见,让我们说这些网站是网上销售东西的在线商店(实际上,它们是有在线申请可能性的求职网站,但从技术上讲,它看起来很像一个网店)。
这个很好用。每个网站都会创建一个刮板- API,通过可用的高级搜索页面来抓取所有产品-URL。让我们把这个API称为“URL列表”。然后,为产品详细信息页创建一个“product”,该页面可以抓取所有必要的元素。例如标题、产品文本和规格,如品牌、类别等。产品API被设置为每天使用“URL列表”中收集的所有URL进行爬行。
然后,使用我们自己的服务使用Kimonolabs JSON端点获取所有产品的收集信息。
然而,Kimonolabs将于2016年2月底退出服务。所以,我在寻找一个简单的替代方案。我一直在看import.io,但我想知道:
我在摆弄服务。基本上,它似乎是通过与Kimonolabs相同的简单过程来提取数据。只是,我不清楚是否支持为产品API分页URL的必要性,并自动保持它的最新。
如果import.io是一个有用的替代方案,这里的任何import.io用户都可以给出建议吗?也许能给出一些正确方向的指点?
发布于 2016-02-17 13:35:39
调查波西亚。这是一个像Kimono一样工作的开源视觉抓取工具。
Portia也可以作为一个服务提供,它满足了您对import.io的要求:
完全披露:我在Portia的首席维护者Scrapinghub工作。
发布于 2016-07-13 16:14:08
发布于 2016-02-16 15:43:03
我不太喜欢Import.io,但在我看来,它允许通过批量输入urls进行分页。读这里。
到目前为止,在使整个网站通过API方面没有取得多大进展:
链接多个API/Dataset目前还不可能完全自动化使用连锁API提取整个网站。例如,如果我希望在类别页或分页列表中找到数据。我首先必须创建一个URL列表,运行大容量解压缩,将结果保存为导入数据集,然后将其链接到另一个Extractor.Once设置一次,我希望能够在一次单击中更自动地完成此操作。
如果你对JS很熟悉,你可能会发现这很有用。
https://stackoverflow.com/questions/35428809
复制相似问题