首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python web crawler与MySQL数据库

Python web crawler与MySQL数据库
EN

Stack Overflow用户
提问于 2011-08-11 04:18:09
回答 3查看 12.5K关注 0票数 6

我想创建或找到一个用Python编写的开源网络爬虫(爬虫/机器人)。它必须找到并跟踪链接,收集元标签和元描述,网页的标题和网页的网址,并将所有的数据放入一个MySQL数据库。

有谁知道可以帮助我的开源脚本吗?此外,如果有人能给我一些关于我应该做什么的建议,那么他们将非常受欢迎。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2011-08-11 04:29:45

是的,我知道,

https://github.com/djay/transmogrify.webcrawler

http://code.google.com/p/harvestman-crawler/

http://code.activestate.com/pypm/orchid/

开源web爬虫

http://scrapy.org/

教程

http://www.example-code.com/python/pythonspider.asp

PS我不知道他们是否使用mysql,因为通常python要么使用sqlit,要么使用postgre sql,所以如果你愿意,你可以使用我给你的库,然后导入python-mysql模块并这样做:D

http://sourceforge.net/projects/mysql-python/

票数 4
EN

Stack Overflow用户

发布于 2011-08-11 04:29:19

我建议你使用Scrapy,这是一个基于Twistedlxml的强大的抓取框架。它特别适合于你想要执行的任务类型,它的特点是基于正则表达式的规则跟踪链接,并允许你使用正则表达式或XPath表达式从html中提取数据。它还提供了所谓的“管道”,可以将数据转储到您想要的任何位置。

Scrapy没有提供内置的MySQL管道,但是有人已经编写了一个here,您可以基于它创建自己的管道。

票数 4
EN

Stack Overflow用户

发布于 2011-08-11 04:29:31

Scrappy是一个web爬行和抓取框架,您可以对其进行扩展以将所选数据插入到数据库中。

它就像是Django框架的反向版本。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7017216

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档