我有一个包含多章文本的超文本标记语言文档,其中H1标签是章节分隔符。如何将这样的文档拆分成html片段,其中每个片段都以相应“章节”的h1标记开头。我认为美化超文本标记语言,然后通过line...but迭代内容行,这是一种技巧。有没有更好的使用lxml的解决方案?
发布于 2011-09-03 20:46:35
tree = lxml.html.document_fromstring(htmltext)
for element in tree.iter():
if element.tag == 'h1':
for subelement in element:
// do stuff这将找到作为h1标记的元素,然后您可以遍历它的所有子元素。您也可以将元素中的所有文本作为字符串,并以这种方式对其进行处理。你想做什么就做什么。http://lxml.de/ lxml非常棒,我会推荐它。我不得不更新已经在使用它的代码,只要我有问题,就让网站保持开放供参考:)
https://stackoverflow.com/questions/7293141
复制相似问题