首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在import.io中正确设置刮擦路径

如何在import.io中正确设置刮擦路径
EN

Stack Overflow用户
提问于 2015-05-30 08:57:51
回答 1查看 223关注 0票数 4

我正试图在Import.io中设置一个提取器,并且很难获得要发布的API。每次它告诉我它不能发布API,并且可能尝试使用xpath。因此,经过进一步的研究,我发现在craig的列表页面上找到的标题链接的xpath是在span标记中保存的。标签如下:

代码语言:javascript
复制
span[@class='pl']

我尝试在import.io的xpath区域为一个字段设置以下内容

代码语言:javascript
复制
//span[@class='pl']

但没有结果。不管我看起来尝试了什么,我都无法真正地让API发布。虽然我能够将数据导出到dataset,但我确实希望获得一个要发布的API。

我想知道是否有人成功地使用import.io做了一些小刮克雷格列表?如果是这样的话,要使API正确发布,需要执行哪些步骤?

另外,我还读过一些关于Scrapy的文章,但是我不知道python,如何安装它,并运行它,甚至我确实找到了一段与这个问题直接相关的特定代码。有人对我如何让Import.io发布API有任何见解吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-05-30 20:25:02

因此,对于任何想要找到这个问题的答案的人来说,使用Import.io为克雷格列表中的标题设置合适的xpath的方法是将高级xpath覆盖设置为:

代码语言:javascript
复制
.//span[@class='pl']/.

现在,我的问题是,大约403个错误被从克雷格的名单中返回--意思是禁止的。

票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/30544214

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档