文章/答案/技术大牛

发布

社区首页 >问答首页 >使用python代码从IEEEXplore网站提取DOI

问使用python代码从IEEEXplore网站提取DOI
EN

Stack Overflow用户

提问于 2019-02-09 08:17:04

回答 1查看 692关注 0票数 0

无法从网页中提取字段数据，这不是常见的web抓取问题。它也与javascript相关联。我也尝试了python-request，但是无法解决这个问题。

我正在尝试从网页中提取doi。doi位于javascript中。我能够读懂页面，代码一直运行到{print(Soup)}。当我试图提取DOI值(在给定代码中，示例网页的doi如下：“doi”：“10.1109/LAwr2014.2364296”)时，我想打印“10.1109/LAwr2014.2364296”，这是从网页中提取的。

import urllib
from bs4 import BeautifulSoup
web_page = 'https://ieeexplore.ieee.org/document/6933872'
page = urllib.request.urlopen(web_page)
soup = BeautifulSoup(page, 'html.parser')        
print(soup)
soup.body.findAll(text='doi')

当使用网页"https://ieeexplore.ieee.org/document/6933872“时，输出为10.1109/ When 2014.2364296。我怎么能做到呢？

python

extract

ieee

doi

回答 1

Stack Overflow用户

发布于 2019-02-11 09:52:02

跳过Javascript web抓取问题的一种可能的解决方案是使用IEEE API (https://developer.ieee.org/ )。虽然它们确实需要注册和批准才能获得API密钥，但一旦您有了API密钥，发送一堆IEEE文章编号并以结构化方式取回它们的DOI和其他元数据将变得更加容易。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54601950

复制

相似问题

问使用python代码从IEEEXplore网站提取DOI
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用python代码从IEEEXplore网站提取DOIEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用python代码从IEEEXplore网站提取DOI
EN