在过去的几天里我开始学习蟒蛇。我想知道用python编写爬虫的等效方法。
所以在红宝石里我用:
nokogiri,用于爬行html并通过css标记获取内容。Net::HTTP和Net::HTTP::Get.new(uri.request_uri).body在python中,它们的等价物是什么?
发布于 2012-10-15 07:41:32
井
主要是您必须分离“刮刀器”/爬虫-- python /program/函数,它将从webserver和解析器中下载文件/数据,解析器将读取这些数据并解释数据。在我的例子中,我不得不放弃并获得一些“开放”的政府信息,但不是对下载/数据友好的。在这个项目中,我使用了scrapy1。
主要是设置'starter_urls‘,这是我的机器人将爬行/获取的urls,在我使用一个函数’解析器‘检索/解析这个数据之后。
为了进行解析/检索,您将需要一些html、lxml提取器,因为您90%的数据都是这样。
现在集中在你的问题上:
用于数据爬行
用于分析数据
请记住,“爬行”和“报废”不仅适用于网络,还包括电子邮件。你可以在这里检查另一个问题
1= http://scrapy.org/
2- http://docs.python-requests.org/en/latest/
3- http://docs.python.org/library/urllib.html
4- http://lxml.de/
5- http://www.crummy.com/software/BeautifulSoup/
发布于 2012-10-15 07:40:33
发布于 2012-10-15 07:29:02
实际上,Python中的真实世界HTML解析器是美汤。目前,Python库很受欢迎(尽管标准库具有类似的功能,但使用的请求相当繁琐)。
好斗和收割机项目是真实世界里的爬虫机,只是为了爬行而定制的。
https://stackoverflow.com/questions/12890897
复制相似问题