首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从页面抓取时遇到麻烦

从页面抓取时遇到麻烦
EN

Stack Overflow用户
提问于 2014-11-28 01:42:47
回答 1查看 60关注 0票数 1

参考我的一个previous question,我必须抓取一个酒店的评论(所有评论),例如这个hotel

通过使用BeautifulSoap,我所做的是首先从具有BVRRPager BVRRPageBasedPager类的div内的分页获得所有评论页面链接,然后从所有页面中抓取评论。BeautifulSoap的问题是div.BVRRRatingSummary中的内容不会出现(尝试在禁用JS的情况下加载该页面)

我已经使用Selinium抓取了评论,但我的客户不想使用Selinium,因为它加载了整个页面的JS和图片

我想知道他们可能会使用什么样的过程来加载审查?有没有什么办法可以用BeautifulSoap抓取div.BVRRRatingSummary中的内容?

EN

回答 1

Stack Overflow用户

发布于 2014-11-28 02:55:39

您可以尝试将firefox与firebug插件一起使用。加载网页时打开firebug,然后转到Net,然后单击XHR。这将显示正在加载哪些json文件。然后,您可以尝试直接获取这些文件,并使用像simplejson这样的库。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27176391

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档