我尝试使用BeautifulSoup,但是Soup无法解析位于"body“标签中的信息。当我试图解析表时,我得到了一个空输出。
我如何解决这个问题?
发布于 2020-03-06 01:32:32
这个页面使用JavaScript来添加数据,但是BeautifulSoup/LXML不能运行JavaScript --如果你在浏览器中关闭javaScrip并加载页面,那么你会看到BeautifulSoup/LXML能得到什么。
您可能需要使用Selenium来控制可以运行JavaScript的web浏览器。
或者,您可以尝试在Chrome/Firefox (选项卡Network) to get url usesJavaScript(AJAX/XHR) to download data. And you can try to use this url withrequestsandBeautifulSoup` )中使用DevTools
我发现它使用url:
我没有检查requests是否需要特殊设置(例如,cookies、headers)来获取它。
发布于 2020-03-06 01:28:46
你可以使用Puppeteer来“控制”动态网页,然后用BS抓取它。
查看此处:https://github.com/puppeteer/puppeteer/tree/master/examples
https://stackoverflow.com/questions/60550898
复制相似问题