首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用python代码从IEEEXplore网站提取DOI

使用python代码从IEEEXplore网站提取DOI
EN

Stack Overflow用户
提问于 2019-02-09 08:17:04
回答 1查看 692关注 0票数 0

无法从网页中提取字段数据,这不是常见的web抓取问题。它也与javascript相关联。我也尝试了python-request,但是无法解决这个问题。

我正在尝试从网页中提取doi。doi位于javascript中。我能够读懂页面,代码一直运行到{print(Soup)}。当我试图提取DOI值(在给定代码中,示例网页的doi如下:“doi”:“10.1109/LAwr2014.2364296”)时,我想打印“10.1109/LAwr2014.2364296”,这是从网页中提取的。

代码语言:javascript
复制
import urllib
from bs4 import BeautifulSoup
web_page = 'https://ieeexplore.ieee.org/document/6933872'
page = urllib.request.urlopen(web_page)
soup = BeautifulSoup(page, 'html.parser')        
print(soup)
soup.body.findAll(text='doi')

当使用网页"https://ieeexplore.ieee.org/document/6933872“时,输出为10.1109/ When 2014.2364296。我怎么能做到呢?

EN

回答 1

Stack Overflow用户

发布于 2019-02-11 09:52:02

跳过Javascript web抓取问题的一种可能的解决方案是使用IEEE API (https://developer.ieee.org/ )。虽然它们确实需要注册和批准才能获得API密钥,但一旦您有了API密钥,发送一堆IEEE文章编号并以结构化方式取回它们的DOI和其他元数据将变得更加容易。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54601950

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档