首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >导入IO-使用XPath显示“更多”内容

导入IO-使用XPath显示“更多”内容
EN

Stack Overflow用户
提问于 2015-07-13 23:02:58
回答 2查看 328关注 0票数 3

我完全被这件事难住了,并向我们寻求帮助!

我正在使用Import.io crawler从TripAdvisor中提取评论。然而,当我训练爬虫的时候,“更多”按钮是不活动的。

下面是该页面的一个示例:[http://www.tripadvisor.co.uk/Hotel_Review-g295424-d306662-Reviews-Hilton_Dubai_Jumeirah_Resort-Dubai_Emirate_of_Dubai.html#REVIEWS][1]

下面是完整的评论的Xpath : //*@id="UR288083139"/div2/div/div3

更多按钮: //*@id="review_288083139"/div1/div2/div/div/div3/p/span

有没有可能在Import.io中包含Xpath,以便包含完整的审查?

EN

回答 2

Stack Overflow用户

发布于 2015-07-17 15:15:24

一种方法是先使用Crawler,然后使用Extractor。这将把这个过程分成两部分。

  1. 创建一个爬虫程序,您可以训练它来捕获页面上每个评论的链接。确保为该列选择link。

Sample review from the website

  • Create一个提取器,从您从crawler.

  • Voila!获得的链接中捕获完整的评论你得到了所有的评论!

注意:如果你已经有了你需要评论的页面的所有链接,最好是一个Extractor而不是Crawler。这样,您就可以将API链接到另一个提取器。如果你不知道所有的链接,你只需要一个爬虫。

希望这能有所帮助!

票数 1
EN

Stack Overflow用户

发布于 2015-07-15 18:10:09

在你点击那个按钮之前,这个html看起来并不在页面上,而且上面也没有包含该数据的URL。所以你可能不走运。

您可以尝试使用开发人员控制台,看看是否可以在某个xml文件或动态URL中找到完整的评论。不过,我不确定是怎么做的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/31386888

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档