无法从网页中提取字段数据,这不是常见的web抓取问题。它也与javascript相关联。我也尝试了python-request,但是无法解决这个问题。
我正在尝试从网页中提取doi。doi位于javascript中。我能够读懂页面,代码一直运行到{print(Soup)}。当我试图提取DOI值(在给定代码中,示例网页的doi如下:“doi”:“10.1109/LAwr2014.2364296”)时,我想打印“10.1109/LAwr2014.2364296”,这是从网页中提取的。
import urllib
from bs4 import BeautifulSoup
web_page = 'https://ieeexplore.ieee.org/document/6933872'
page = urllib.request.urlopen(web_page)
soup = BeautifulSoup(page, 'html.parser')
print(soup)
soup.body.findAll(text='doi')当使用网页"https://ieeexplore.ieee.org/document/6933872“时,输出为10.1109/ When 2014.2364296。我怎么能做到呢?
发布于 2019-02-11 09:52:02
跳过Javascript web抓取问题的一种可能的解决方案是使用IEEE API (https://developer.ieee.org/ )。虽然它们确实需要注册和批准才能获得API密钥,但一旦您有了API密钥,发送一堆IEEE文章编号并以结构化方式取回它们的DOI和其他元数据将变得更加容易。
https://stackoverflow.com/questions/54601950
复制相似问题