文章/答案/技术大牛

发布

社区首页 >问答首页 >导入IO-使用XPath显示“更多”内容

问导入IO-使用XPath显示“更多”内容
EN

Stack Overflow用户

提问于 2015-07-13 23:02:58

回答 2查看 328关注 0票数 3

我完全被这件事难住了，并向我们寻求帮助！

我正在使用Import.io crawler从TripAdvisor中提取评论。然而，当我训练爬虫的时候，“更多”按钮是不活动的。

下面是该页面的一个示例：[http://www.tripadvisor.co.uk/Hotel_Review-g295424-d306662-Reviews-Hilton_Dubai_Jumeirah_Resort-Dubai_Emirate_of_Dubai.html#REVIEWS][1]

下面是完整的评论的Xpath : //*@id="UR288083139"/div2/div/div3

更多按钮: //*@id="review_288083139"/div1/div2/div/div/div3/p/span

有没有可能在Import.io中包含Xpath，以便包含完整的审查？

web-crawler

import.io

xpath

回答 2

Stack Overflow用户

发布于 2015-07-17 15:15:24

一种方法是先使用Crawler，然后使用Extractor。这将把这个过程分成两部分。

创建一个爬虫程序，您可以训练它来捕获页面上每个评论的链接。确保为该列选择link。

Sample review from the website

Create一个提取器，从您从crawler.

Voila！获得的链接中捕获完整的评论你得到了所有的评论！

注意:如果你已经有了你需要评论的页面的所有链接，最好是一个Extractor而不是Crawler。这样，您就可以将API链接到另一个提取器。如果你不知道所有的链接，你只需要一个爬虫。

希望这能有所帮助！

票数 1

Stack Overflow用户

发布于 2015-07-15 18:10:09

在你点击那个按钮之前，这个html看起来并不在页面上，而且上面也没有包含该数据的URL。所以你可能不走运。

您可以尝试使用开发人员控制台，看看是否可以在某个xml文件或动态URL中找到完整的评论。不过，我不确定是怎么做的。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/31386888

复制

相似问题

问导入IO-使用XPath显示“更多”内容
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问导入IO-使用XPath显示“更多”内容EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问导入IO-使用XPath显示“更多”内容
EN