首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Python抓取新闻站点

使用Python抓取新闻站点
EN

Stack Overflow用户
提问于 2012-10-24 06:04:36
回答 1查看 567关注 0票数 2

我是Python的新手,读过大约半本关于Python3的初学者书籍。我认为这样做会让我去做一些我真正想做的事情,而不是通过一些“无聊的”练习。

我想建立一个应用程序,将抓取Reddit的顶部网址,然后将这些发布到我自己的页面。它一天只检查几次,所以这里根本不需要敲打。

我想把Reddit的json (http://www.reddit.com/.json)和其他的子内容解析成URL,这样我就可以组织成我自己的顶层列表,在我的页面上也有我自己的类别,这样我就不必一直访问Reddit了。

该网站将是一个Wordpress模板与数据库托管在它自己的服务器(mysql)。我将使用RDS,ELB,Auto-scaling和ELB服务器的EC2实例在亚马逊网络服务上托管它。

我的问题是:

-Would让Python scraper应用程序在它自己的服务器上运行,然后将抓取的URL写入数据库,这样做有意义吗?

-I听说拆分应用程序可能是有意义的,一个做读,另一个做写,这是怎么回事?

-What代码的流程会是什么样子呢?我可以笨手笨脚地写它,但我只是不完全确定它应该如何进行。

-What否则我不会在这里考虑,有什么建议吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-10-24 06:35:50

将抓取的网址写入数据库的服务器上运行Python scraper应用程序是否有意义?

是的,这是个好主意。我会设置一个cron作业来每隔一段时间运行一次程序。根据您期望的负载,它不一定需要在自己的服务器上。我会把它作为它自己的应用程序。

我听说拆分应用程序是有意义的,一个做读,另一个做写,这是怎么回事?

我假设说这话的人意味着您应该有一个应用程序来写入数据库(您的python脚本)和一个从数据库读取URL的应用程序(您的WordPress包装器,或者可能是另一个Python脚本来编写WordPress可以理解的东西)。

代码的流程会是什么样子的?我可以笨手笨脚地写它,但我只是不完全确定它应该如何进行。

这在程序员中是一个有点宗教色彩的问题。然而,我觉得你的程序应该足够简单。我会简单地获取JSON,并有一个查询,如果条目还不存在,它会插入到数据库中。

还有什么是我没想到的,有什么小贴士吗?

我个人会使用urllib2和MySQLdb模块来编写Python脚本。祝好运!

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13040048

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档