首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >正确选择分析数据库的难点

正确选择分析数据库的难点
EN

Stack Overflow用户
提问于 2010-07-05 12:34:03
回答 1查看 439关注 0票数 3

我需要一些帮助来决定我们应该为我们的项目选择哪个数据库。我们正在开发一个web应用程序来收集关于用户行为的数据并对其进行分析(糟糕的解释,但我不能提供更多的细节;web分析数据是我们的核心数据集之一)。我们估计每周将有大约2亿行插入到数据库+根据原始数据计算的数据中。数据必须保留至少六个月。

我上周花了一半时间收集关于不同解决方案的信息,但似乎有太多的信息让我感到迷茫。我发现的最有希望的是卡桑德拉,Hbase和蜂巢。我还查看了MongoDb、Redis和其他一些东西,但它们看起来好像适合不同的需求,或者社区没有那么活跃。

  • 整个应用程序将在亚马逊的EC2中运行。作为一家初创公司,现收现付的定价模式非常适合我们。在云中管理数据库越容易,better.
  • Scalability就很重要。我们将产生的数据量变化很大,并且会随着时间的推移而增长。

  • ,我们不能支付巨额的许可费用。否则,我们可能会使用像http://www.vertica.com/.
  • We这样的工具对数据进行各种分析,它们编写得越容易,效果就越好。我考虑在任务中使用Map/Reduce;Hbase似乎比Cassandra有更好的支持,而Hive有自己的查询语言。不需要实时分析;我们可以每天计算一次结果,并将这些结果返回数据库以获得快速的retrieval.
  • Compression支持,这是很好的,但不是必要的(磁盘空间很便宜:)。

我还考虑过使用MySql (因为我们无论如何都会将其用于所有用户信息等等),但在将来,缩放将变得更加困难,而且我认为,无论如何,我们都必须迁移到其他数据库。我们也非常愿意投入一些时间和精力来推动选定的数据库的发展。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2010-07-07 14:29:32

我们决定继续使用Hadoop(& Hive/Hbase)作为我们的主要数据存储。造成这种情况的主要原因是:

它已经被证明是一种技术,许多大型站点都在使用它-- (Facebook...).

  • Lot's of documentation,甚至还编写了Hadoop书籍。

  • Hive提供了很好的SQL类查询语言和命令行,所以即使不懂

  • /Python/等的人也可以轻松地编写查询。

  • 是免费的,社区的人似乎很有帮助:)
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3179465

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档