首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用python处理HTML标记

使用python处理HTML标记
EN

Stack Overflow用户
提问于 2013-09-01 21:31:27
回答 1查看 171关注 0票数 0

在HTML文件中,出现了以下情况:

代码语言:javascript
复制
<span class="finereader"></span>

代码语言:javascript
复制
<span class="finereader">a</span>

我想把这些标签都去掉。第二个例子显示,标签下可能有一个字母(或数字,但只有1)。这个字母不应该被删除,只有<span class="finereader">和下面的</span>。有没有re.sub式能做到这一点?谢谢你的帮助。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-09-01 21:45:07

使用BeautifulSoup的另一种解决方案

代码语言:javascript
复制
from bs4 import BeautifulSoup

soup = BeautifulSoup(open('htmlfile'))

for elem in soup.find_all('span', class_='finereader'):
    elem.replace_with(elem.string or '') 

print(soup.prettify())
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18563158

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档