首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何处理美汤4中的<br> </br>和<br/>?

如何处理美汤4中的<br> </br>和<br/>?
EN

Stack Overflow用户
提问于 2014-12-19 06:24:18
回答 1查看 262关注 0票数 1

我正在尝试使用python和Beautiful Soup4来替换一些html中的每一个换行标记。

文档中有<br><br/></br>标签,但由于Beautiful Soup处理标签的方式,每当它找到一个<br>时,它就会删除它与它看到的下一个</br>之间的所有内容。

有什么办法可以解决这个问题吗?

EN

回答 1

Stack Overflow用户

发布于 2014-12-19 07:45:03

尝试使用生成器类的HTMLParserTreeBuilder

代码语言:javascript
复制
from bs4 import BeautifulSoup
from bs4.builder import HTMLParserTreeBuilder

html_doc = """
<html>this is a test<br> ...between a start and end br... </br> a blank br: <br/> something else
"""

soup = BeautifulSoup(html_doc, builder=HTMLParserTreeBuilder())
print soup.prettify()

比较未指定builder=参数时的输出。

您可以确定使用哪个构建器bs4:

代码语言:javascript
复制
print type(soup.builder)

默认情况下,bs4似乎选择了基于lxml的构建器。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27556774

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档