首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从Ruby到Python :爬虫

从Ruby到Python :爬虫
EN

Stack Overflow用户
提问于 2012-10-15 07:18:13
回答 4查看 5.8K关注 0票数 2

在过去的几天里我开始学习蟒蛇。我想知道用python编写爬虫的等效方法。

所以在红宝石里我用:

  1. nokogiri,用于爬行html并通过css标记获取内容。
  2. 用于从url获取JSON数据的Net::HTTPNet::HTTP::Get.new(uri.request_uri).body

在python中,它们的等价物是什么?

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2012-10-15 07:41:32

主要是您必须分离“刮刀器”/爬虫-- python /program/函数,它将从webserver和解析器中下载文件/数据,解析器将读取这些数据并解释数据。在我的例子中,我不得不放弃并获得一些“开放”的政府信息,但不是对下载/数据友好的。在这个项目中,我使用了scrapy1。

主要是设置'starter_urls‘,这是我的机器人将爬行/获取的urls,在我使用一个函数’解析器‘检索/解析这个数据之后。

为了进行解析/检索,您将需要一些html、lxml提取器,因为您90%的数据都是这样。

现在集中在你的问题上:

用于数据爬行

  1. 刮痕
  2. 请求2
  3. Urllib 3

用于分析数据

  1. Scrapy/lxml或scrapy+other
  2. lxml4
  3. 丰盛的汤5

请记住,“爬行”和“报废”不仅适用于网络,还包括电子邮件。你可以在这里检查另一个问题

1= http://scrapy.org/

2- http://docs.python-requests.org/en/latest/

3- http://docs.python.org/library/urllib.html

4- http://lxml.de/

5- http://www.crummy.com/software/BeautifulSoup/

6- Python读取我的outlook电子邮件邮箱并解析消息

票数 3
EN

Stack Overflow用户

发布于 2012-10-15 07:40:33

  1. 在lxml和漂亮的汤之间,lxml更等同于nokogiri,因为它基于libxml2,并且支持xpath/css。
  2. 网络/http的等价物是urllib2
票数 3
EN

Stack Overflow用户

发布于 2012-10-15 07:29:02

实际上,Python中的真实世界HTML解析器是美汤。目前,Python库很受欢迎(尽管标准库具有类似的功能,但使用的请求相当繁琐)。

好斗和收割机项目是真实世界里的爬虫机,只是为了爬行而定制的。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12890897

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档