文章/答案/技术大牛

发布

问使用lxml从站点抓取信息
EN

Stack Overflow用户

提问于 2011-01-16 08:36:45

回答 1查看 1.3K关注 0票数 0

我正在尝试使用lxml从站点Reddit.com获取所有标题的列表。我使用了这个查询：

  reddit = etree.HTML( urllib.urlopen("http://www.reddit.com/r/all/top").read() )
  reddit.xpath("//div[contains(@class,'title')]//b/text()")

但是，当我运行表达式时，Python shell中什么也没有出现。XPath是否不正确？

使用Python 2.7运行

下面是完整的代码：

import urllib
import os, random, sys, math
from lxml import etree

def main():

    reddit = etree.HTML( urllib.urlopen("http://www.reddit.com/r/all/top").read() )
    reddit.xpath("//div[contains(@class,'title')]//b/text()")



if __name__ == "__main__":
    main()

python

html

parsing

screen-scraping

lxml

回答 1

Stack Overflow用户

发布于 2011-01-16 08:40:42

您没有连接到互联网。再试试。

与/或

您的Python安装要么是垃圾，要么是您将两个堆栈跟踪混合在一起...注意路径是如何突然从3.1变为2.7的！

更新

shell中没有显示任何内容，因为您没有打印任何内容。

至少，如果你不使用reddit.xpath("blahblah")，而使用它：

result = reddit.xpath("blahblah")
print result

您将看到您当前版本的"blahblah“生成[]，并且如果使用"blahblah”可以改善这种情况，您将处于一个很好的状态。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/4703052

复制

相似问题

问使用lxml从站点抓取信息
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用lxml从站点抓取信息EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用lxml从站点抓取信息
EN