首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >需要帮助从python中的HTML拉出4个数字

需要帮助从python中的HTML拉出4个数字
EN

Stack Overflow用户
提问于 2021-09-27 22:14:37
回答 1查看 72关注 0票数 0

我现在已经编写了代码,它打开一个URL并将HTML数据提取到htmlA中。

htmlA中,我试图提取4条信息

  1. A date
  2. Price 1
  3. Price 2
  4. A百分比

G 211

htmlA中嵌入这4条信息的部分如下所示:

代码语言:javascript
复制
<!-- TAB CONTENT -->\r\n\t\t\t<div class="fund-content tab-content span12">\r\n\r\n\t\t\t\t<!-- OVERVIEW -->\r\n\t\t\t\t<div class="tab-pane active" id="overview">\r\n\t\t\t\t\t<h3 class="subhead tab-header">Overview</h3>\r\n\t\t\t\t\t<div class="row-fluid">\r\n\t\t\t\t\t\t<div class="span6">\r\n\t\t\t\t\t\t\t<p class="as-of-date">\r\n\t\t\t\t\t\t\t\t<span id="ContentPlaceHolder1_cph_main_cph_main_AsOfLabel">As of 9/24/2021</span>\r\n\t\t\t\t\t\t\t</p>\r\n\r\n\t\t\t\t\t\t\t<div class="table-wrapper">\r\n\t\t\t\t\t\t\t\t<div>\r\n\t<table class="cefconnect-table-1 table table-striped" cellspacing="0" cellpadding="5" Border="0" id="ContentPlaceHolder1_cph_main_cph_main_SummaryGrid">\r\n\t\t<tr class="tr-header">\r\n\t\t\t<th scope="col">&nbsp;</th><th class="right-align" scope="col">Share<br>Price</th><th class="right-align" scope="col">NAV</th><th class="right-align" scope="col">Premium/<br>Discount</th>\r\n\t\t</tr><tr>\r\n\t\t\t<td>Current</td><td class="right-align">$19.14</td><td class="right-align">$21.82</td><td class="right-align">-12.28%</

在本例中,我希望提取:

  1. 9/24/2021
  2. $19.14
  3. $21.82
  4. -12.28%

我试图使用BeautifulSoup搜索和提取htmlA,但在挑选我需要的特定信息( 4)时遇到了困难。有人能帮我处理一下这段代码吗?非常感谢!

EN

回答 1

Stack Overflow用户

发布于 2021-09-27 22:34:23

我不能给你一个完整的答案,但我可以给你指明正确的方向。

您需要将html内容解析为BeautifulSoup对象,这样才能使用网页内容parse。就像这样,

代码语言:javascript
复制
from bs4 import BeautifulSoup
import requests


url = 'https://en.wikipedia.org/wiki/Elon_Musk'

html = requests.get(url)

soup = BeautifulSoup(html.content, 'html.parser')

一旦您有var汤,您就可以调用各种方法,例如,

代码语言:javascript
复制
print(soup.div) 

这会给你一个div元素,等等。

更多的例子:

代码语言:javascript
复制
soup.title
# <title>The Dormouse's story</title>

soup.title.name
# u'title'

soup.title.string
# u'The Dormouse's story'

soup.title.parent.name
# u'head'

soup.p
# <p class="title"><b>The Dormouse's story</b></p>

soup.p['class']
# u'title'

soup.a
# <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

soup.find_all('a')
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

soup.find(id="link3")
# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

来自https://www.crummy.com/software/BeautifulSoup/bs4/doc/

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69353789

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档