问使用lxml.html拆分HTML文档
EN

Stack Overflow用户

提问于 2011-09-03 20:33:27

回答 1查看 425关注 0票数 0

我有一个包含多章文本的超文本标记语言文档，其中H1标签是章节分隔符。如何将这样的文档拆分成html片段，其中每个片段都以相应“章节”的h1标记开头。我认为美化超文本标记语言，然后通过line...but迭代内容行，这是一种技巧。有没有更好的使用lxml的解决方案？

发布于 2011-09-03 20:46:35

tree = lxml.html.document_fromstring(htmltext)
for element in tree.iter():
  if element.tag == 'h1':
    for subelement in element:
      // do stuff

这将找到作为h1标记的元素，然后您可以遍历它的所有子元素。您也可以将元素中的所有文本作为字符串，并以这种方式对其进行处理。你想做什么就做什么。http://lxml.de/ lxml非常棒，我会推荐它。我不得不更新已经在使用它的代码，只要我有问题，就让网站保持开放供参考:)

票数 6

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/7293141

复制

相似问题

问使用lxml.html拆分HTML文档EN