首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >无法抓取动态网页

无法抓取动态网页
EN

Stack Overflow用户
提问于 2020-03-06 01:23:37
回答 2查看 109关注 0票数 0

我在试着刮桌子找到https://ark.intel.com/content/www/us/en/ark/search/featurefilter.html?productType=873&1_Filter-Family=595&2_StatusCodeText=4

我尝试使用BeautifulSoup,但是Soup无法解析位于"body“标签中的信息。当我试图解析表时,我得到了一个空输出。

我如何解决这个问题?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-03-06 01:32:32

这个页面使用JavaScript来添加数据,但是BeautifulSoup/LXML不能运行JavaScript --如果你在浏览器中关闭javaScrip并加载页面,那么你会看到BeautifulSoup/LXML能得到什么。

您可能需要使用Selenium来控制可以运行JavaScript的web浏览器。

或者,您可以尝试在Chrome/Firefox (选项卡Network) to get url usesJavaScript(AJAX/XHR) to download data. And you can try to use this url withrequestsandBeautifulSoup` )中使用DevTools

我发现它使用url:

https://ark.intel.com/libs/apps/intel/support/ark/advancedFilterSearch?productType=873&1_Filter-Family=595&2_StatusCodeText=4&forwardPath=/content/www/us/en/ark/search/featurefilter.html&pageNo=1

我没有检查requests是否需要特殊设置(例如,cookies、headers)来获取它。

票数 1
EN

Stack Overflow用户

发布于 2020-03-06 01:28:46

你可以使用Puppeteer来“控制”动态网页,然后用BS抓取它。

查看此处:https://github.com/puppeteer/puppeteer/tree/master/examples

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60550898

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档