首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用lxml.html拆分HTML文档

使用lxml.html拆分HTML文档
EN

Stack Overflow用户
提问于 2011-09-03 20:33:27
回答 1查看 425关注 0票数 0

我有一个包含多章文本的超文本标记语言文档,其中H1标签是章节分隔符。如何将这样的文档拆分成html片段,其中每个片段都以相应“章节”的h1标记开头。我认为美化超文本标记语言,然后通过line...but迭代内容行,这是一种技巧。有没有更好的使用lxml的解决方案?

EN

回答 1

Stack Overflow用户

发布于 2011-09-03 20:46:35

代码语言:javascript
复制
tree = lxml.html.document_fromstring(htmltext)
for element in tree.iter():
  if element.tag == 'h1':
    for subelement in element:
      // do stuff

这将找到作为h1标记的元素,然后您可以遍历它的所有子元素。您也可以将元素中的所有文本作为字符串,并以这种方式对其进行处理。你想做什么就做什么。http://lxml.de/ lxml非常棒,我会推荐它。我不得不更新已经在使用它的代码,只要我有问题,就让网站保持开放供参考:)

票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7293141

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档