首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用lxml.html解析html

使用lxml.html解析html
EN

Stack Overflow用户
提问于 2012-10-29 21:13:07
回答 1查看 1.1K关注 0票数 0

我在scraperwiki.com上开发了一个Python scraper,我需要解析一个包含以下内容的html页面:

代码语言:javascript
复制
<div class="items">
  <div class="item">
       ItemLine1 ItemLine1 ItemLine1
       <br> 
       ItemLine2 ItemLine2 ItemLine2
 </div>
 <br>
</div>

我现在要做的是:

代码语言:javascript
复制
import scraperwiki
import lxml.html

#.......................
raw_string = lxml.html.fromstring(scraperwiki.scrape(url_to_scrape))
my_line = ((raw_string.cssselect("div.items div.item")[0]).text)
print (my_line)

而且它只打印ItemLine1 ItemLine1 ItemLine1。当我更改为1时,它会抛出一个异常。

我该怎么去掉它呢?我应该使用xpath吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-10-29 21:50:10

XPath是最直接的解决方案:

代码语言:javascript
复制
items = raw_string.cssselect('div.items div.item')

texts = [item.xpath('br[1]/preceding-sibling::node()') for item in items]

XPath br[1]选择div.item的第一个br子节点;preceding-sibling::轴包含出现在第一个br之前的所有节点;node()选择该轴中的每一种节点(文本或元素)。

如果您的更大目标是通过br元素拆分节点的子节点,则可以采用几种不同的方法。这很棘手的原因是像brhr这样的元素是设计得很糟糕的标记。使用像sgml、html或xml这样的树状标记语言,应该放在一起的东西应该通过一个公共的父元素进行分组,而不是由一个无子元素分隔。

我将扩展您的测试用例以演示一些更复杂的情况:

代码语言:javascript
复制
html = """<div class="items">
  <div class="item">
   <br>
   ItemLine1 ItemLine1 ItemLine1
   <a href="">item</a>
   Itemline1-b
   <br> 
   <a class="z">item2</a>
   ItemLine2 ItemLine2 ItemLine2
   <br><br>
   Itemline3
 </div>
 <br>
</div>"""

doc = lxml.html.fromstring(html)
itemlist = doc.cssselect('div.items div.item')

第一种方法是简单地获取段落中的所有节点,并通过br将它们划分为不同的列表。如果使用这种方法,请不要使用ElementTree应用编程接口的texttail属性,因为最终可能会复制文本。

代码语言:javascript
复制
def paras_by_br_nodes(parent):
    """Return a list of node children of parent (including text nodes) grouped by "paragraphs" which are delimited by <br/> elements."""
    paralist = []
    paras = []
    for node in parent.xpath('node()'):
        if getattr(node, 'tag', None) == 'br':
            paralist.append(paras)
            paras = []
        else:
            paras.append(node)
        paralist.append(paras)
        return paralist


print paras_by_br_nodes(itemlist[0])

这将生成如下列表:

代码语言:javascript
复制
[['\n       '],
 ['\n       ItemLine1 ItemLine1 ItemLine1\n\t\t', <Element a at 0x10498a350>, '\n\t\tItemline1-b\n       '],
 [<Element a at 0x10498a230>, '\n       ItemLine2 ItemLine2 ItemLine2\n       '],
 [], 
 ['\n       Itemline3\n ']]

第二种方法是利用ElementTree API并将文本节点保留在texttail属性中。这种方法的缺点是,如果没有附加文本的元素,我们只需要包含文本节点。这个非同构类型的列表在使用时会有一些麻烦。

代码语言:javascript
复制
def paras_by_br_text(parent):
    paralist=[]
    para=[parent.text]
    for item in parent:
        if item.tag=='br':
            paralist.append(para)
            para = [item.tail]
        else:
            para.append(item)
    paralist.append(para)
    return paralist

print paras_by_br_text(itemlist[0])

这将生成如下列表。请注意,与前面的列表相比,它在列表的第一个位置只有文本节点节点。这与br.tail文本或parent.text (第一个元素之前的文本)相对应。

代码语言:javascript
复制
[['\n       '],
 ['\n       ItemLine1 ItemLine1 ItemLine1\n\t\t', <Element a at 0x1042f5170>],
 [<Element a at 0x1042f5290>],
 [],
 ['\n       Itemline3\n ']]

我认为最好的方法是引入新的元素。此html在本应使用p或其他容器元素时却在使用br。因此,让我们修复html并返回一个元素列表,而不是节点列表:

代码语言:javascript
复制
def paras_by_br(parent):
    paralist = []
    para = lxml.html.etree.Element('para')
    if parent.text:
        para.text = parent.text
    for item in parent:
        if item.tag=='br':
            paralist.append(para)
            para = lxml.html.etree.Element('para')
            if item.tail:
                para.text = item.tail
        else:
            para.append(item)
    return paralist

paralist = paras_by_br(itemlist[0])

print "\n--------\n".join(lxml.html.etree.tostring(para) for para in paralist)

这将打印以下内容:

代码语言:javascript
复制
<para>
       </para>
--------
<para>
       ItemLine1 ItemLine1 ItemLine1
        <a href="">item</a>
        Itemline1-b
       </para>
--------
<para><a class="z">item2</a>
       ItemLine2 ItemLine2 ItemLine2
       </para>
--------
<para/>

了解如何通过新的para元素对项目进行分组,该元素在原始文档中不存在。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13122353

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档