首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用lxml从站点抓取信息

使用lxml从站点抓取信息
EN

Stack Overflow用户
提问于 2011-01-16 08:36:45
回答 1查看 1.3K关注 0票数 0

我正在尝试使用lxml从站点Reddit.com获取所有标题的列表。我使用了这个查询:

代码语言:javascript
复制
  reddit = etree.HTML( urllib.urlopen("http://www.reddit.com/r/all/top").read() )
  reddit.xpath("//div[contains(@class,'title')]//b/text()")

但是,当我运行表达式时,Python shell中什么也没有出现。XPath是否不正确?

使用Python 2.7运行

下面是完整的代码:

代码语言:javascript
复制
import urllib
import os, random, sys, math
from lxml import etree

def main():

    reddit = etree.HTML( urllib.urlopen("http://www.reddit.com/r/all/top").read() )
    reddit.xpath("//div[contains(@class,'title')]//b/text()")



if __name__ == "__main__":
    main()
EN

回答 1

Stack Overflow用户

发布于 2011-01-16 08:40:42

您没有连接到互联网。再试试。

与/或

您的Python安装要么是垃圾,要么是您将两个堆栈跟踪混合在一起...注意路径是如何突然从3.1变为2.7的!

更新

shell中没有显示任何内容,因为您没有打印任何内容。

至少,如果你不使用reddit.xpath("blahblah"),而使用它:

代码语言:javascript
复制
result = reddit.xpath("blahblah")
print result

您将看到您当前版本的"blahblah“生成[],并且如果使用"blahblah”可以改善这种情况,您将处于一个很好的状态。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4703052

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档