参考我的一个previous question,我必须抓取一个酒店的评论(所有评论),例如这个hotel
通过使用BeautifulSoap,我所做的是首先从具有BVRRPager BVRRPageBasedPager类的div内的分页获得所有评论页面链接,然后从所有页面中抓取评论。BeautifulSoap的问题是div.BVRRRatingSummary中的内容不会出现(尝试在禁用JS的情况下加载该页面)
我已经使用Selinium抓取了评论,但我的客户不想使用Selinium,因为它加载了整个页面的JS和图片
我想知道他们可能会使用什么样的过程来加载审查?有没有什么办法可以用BeautifulSoap抓取div.BVRRRatingSummary中的内容?
发布于 2014-11-28 02:55:39
您可以尝试将firefox与firebug插件一起使用。加载网页时打开firebug,然后转到Net,然后单击XHR。这将显示正在加载哪些json文件。然后,您可以尝试直接获取这些文件,并使用像simplejson这样的库。
https://stackoverflow.com/questions/27176391
复制相似问题