我想创建或找到一个用Python编写的开源网络爬虫(爬虫/机器人)。它必须找到并跟踪链接,收集元标签和元描述,网页的标题和网页的网址,并将所有的数据放入一个MySQL数据库。
有谁知道可以帮助我的开源脚本吗?此外,如果有人能给我一些关于我应该做什么的建议,那么他们将非常受欢迎。
发布于 2011-08-11 04:29:45
是的,我知道,
库
https://github.com/djay/transmogrify.webcrawler
http://code.google.com/p/harvestman-crawler/
http://code.activestate.com/pypm/orchid/
开源web爬虫
http://scrapy.org/
教程
http://www.example-code.com/python/pythonspider.asp
PS我不知道他们是否使用mysql,因为通常python要么使用sqlit,要么使用postgre sql,所以如果你愿意,你可以使用我给你的库,然后导入python-mysql模块并这样做:D
http://sourceforge.net/projects/mysql-python/
发布于 2011-08-11 04:29:19
我建议你使用Scrapy,这是一个基于Twisted和lxml的强大的抓取框架。它特别适合于你想要执行的任务类型,它的特点是基于正则表达式的规则跟踪链接,并允许你使用正则表达式或XPath表达式从html中提取数据。它还提供了所谓的“管道”,可以将数据转储到您想要的任何位置。
Scrapy没有提供内置的MySQL管道,但是有人已经编写了一个here,您可以基于它创建自己的管道。
发布于 2011-08-11 04:29:31
Scrappy是一个web爬行和抓取框架,您可以对其进行扩展以将所选数据插入到数据库中。
它就像是Django框架的反向版本。
https://stackoverflow.com/questions/7017216
复制相似问题