嗨,我用python编写了一个网络爬虫,从nytimes.com这样的新闻网站上提取新闻文章。我想知道什么是一个好的数据库作为这个项目的后端?
提前感谢!
发布于 2010-01-27 10:26:10
对于使用CouchDB、MongoDB或SimpleDB等文档数据库来说,这可能是一个很棒的项目。
MongoDB有一个托管的解决方案:http://mongohq.com。还有a binding for Python (Pymongo)。
如果您在Amazon Web Services上托管此服务,则SimpleDB是一个很好的选择
CouchDB是Apache Foundation的一个开放源码包。
发布于 2010-01-27 08:20:41
就我个人而言,我喜欢PostGreSQL --但其他免费的DB,如MySql (或者,如果您的数据量相当小--最多几GB --甚至SQLite that comes with Python)也可以。
发布于 2010-01-27 08:23:40
我认为数据库本身可能是像这样的网络爬虫更容易的方面之一。
如果期望高负载读取或写入数据库(例如,如果您打算同时运行多个爬虫程序),那么您将希望转向MySql的方向,否则像Sqlite这样的工具可能就可以满足您的需求。
https://stackoverflow.com/questions/2143702
复制相似问题