首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用Bleach完全删除HTML中的链接?

如何使用Bleach完全删除HTML中的链接?
EN

Stack Overflow用户
提问于 2020-09-02 04:56:34
回答 1查看 89关注 0票数 0

Bleach从超文本标记语言中剥离了非白名单的标签,但留下了子节点,例如

代码语言:javascript
复制
>>> import bleach
>>> bleach.clean("<a href="">stays</a>", strip=True, tags=[])
'stays'
>>>  

如何删除整个元素及其子元素?

EN

回答 1

Stack Overflow用户

发布于 2020-09-02 05:26:45

您应该使用lxml。Bleach只是用于清理数据&确保您存储的标记中的安全性。

您可以使用lxml来解析诸如HTML或XML之类的结构化数据。

考虑一个简单的html文件;

代码语言:javascript
复制
<html>
<body>
<p>Hello, World!</p>
</body>
</html>
代码语言:javascript
复制
from lxml import html

root = html.parse("hello_world.html").getroot()

print(html.tostring(root))

# <html><body><p>Hello, World!</p></body></html>

p = root.find("body/p")

p.drop_tree()

print(html.tostring(root))

# <html><body></body></html>

在相关的注释中,如果您想研究一些更高级的lxml解析,我在这里提出的一个最老的问题是让python解析xml并从中编写python代码。Writing a Python tool to convert XML to Python?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63695338

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档