我完全被这件事难住了,并向我们寻求帮助!
我正在使用Import.io crawler从TripAdvisor中提取评论。然而,当我训练爬虫的时候,“更多”按钮是不活动的。
下面是该页面的一个示例:[http://www.tripadvisor.co.uk/Hotel_Review-g295424-d306662-Reviews-Hilton_Dubai_Jumeirah_Resort-Dubai_Emirate_of_Dubai.html#REVIEWS][1]
下面是完整的评论的Xpath : //*@id="UR288083139"/div2/div/div3
更多按钮: //*@id="review_288083139"/div1/div2/div/div/div3/p/span
有没有可能在Import.io中包含Xpath,以便包含完整的审查?
发布于 2015-07-17 15:15:24
一种方法是先使用Crawler,然后使用Extractor。这将把这个过程分成两部分。
Sample review from the website
注意:如果你已经有了你需要评论的页面的所有链接,最好是一个Extractor而不是Crawler。这样,您就可以将API链接到另一个提取器。如果你不知道所有的链接,你只需要一个爬虫。
希望这能有所帮助!
发布于 2015-07-15 18:10:09
在你点击那个按钮之前,这个html看起来并不在页面上,而且上面也没有包含该数据的URL。所以你可能不走运。
您可以尝试使用开发人员控制台,看看是否可以在某个xml文件或动态URL中找到完整的评论。不过,我不确定是怎么做的。
https://stackoverflow.com/questions/31386888
复制相似问题