我有一些用quoted-printable编码的文本,其中使用=符号进行软中断。我希望解析(而不是解码)这个文本。有没有什么方法可以让我读到下面的内容,
<span style=3D"text-decoration: line-through; color: rgb(156, 163, 173);">8=
/23/2017- Lorem ipsum dolor sit amet, fastidii sad.Vim graece&nb=
sp; tractatos如下所示:
8/23/2017- Lorem ipsum dolor sit amet, fastidii sad.Vim graece tractatos发布于 2017-08-23 22:57:19
对于re模块,这似乎应该足够简单了(这是未经测试的,来自内存:
import re
test_str = """<span style=3D"text-decoration: line-through; color: rgb(156, 163, 173);">8=
/23/2017- Lorem ipsum dolor sit amet, fastidii sad.Vim graece&nb=
sp; tractatos"""
re.sub(r'=$', r'\n', test_str, flags=re.MULTILINE)但既然你要求解析它。您想要检索什么?解析通常意味着您将提取结构化数据,因此您的输入应该符合某些语法(看起来是这样):
编辑:
最简单的形式:
import quopri
from HTMLParser import HTMLParser
test_str = """<span style=3D"text-decoration: line-through; color: rgb(156, 163, 173);">8=
/23/2017- Lorem ipsum dolor sit amet, fastidii sad.Vim graece&nb=
sp; tractatos"""
h = HTMLParser()
print h.unescape(quopri.decodestring(test_str))发布于 2017-08-27 00:08:03
解析器对于这个问题可能有些过分了,但是pyparsing是一个简单的解析库,可以处理一些更复杂的规则。此外,它还内置了一些HTML标记表达式:
import pyparsing as pp
sample = """\
<span style=3D"text-decoration: line-through; color: rgb(156, 163, 173);">8=
/23/2017- Lorem ipsum dolor sit amet, fastidii sad.Vim graece&nb=
sp; tractatos"""
# strip all trailing '='
sample = sample.replace("=\n", "")
# convert =XX to char(int(XX)), like =3D -> '='
hex_escape = pp.Regex(r'=[0-9a-fA-F]{2}')
hex_escape.setParseAction(lambda t: chr(int(t[0][1:], 16)))
sample = hex_escape.transformString(sample)
# convert HTML entities like and suppress all opening and closing HTML tags
pp.commonHTMLEntity.setParseAction(pp.replaceHTMLEntity)
stripper = pp.anyOpenTag.suppress() | pp.anyCloseTag.suppress() | pp.commonHTMLEntity使用剥离器转换您的输入字符串:
stripped = stripper.transformString(sample)
print(stripped)打印
8/23/2017- Lorem ipsum dolor sit amet, fastidii sad.Vim graece tractatoshttps://stackoverflow.com/questions/45842921
复制相似问题