首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >nosql中的Bigdata分析

nosql中的Bigdata分析
EN

Stack Overflow用户
提问于 2015-06-02 15:59:39
回答 2查看 183关注 0票数 2

我正在尝试将我们的postgres数据库迁移到更多的执行系统,该数据库包含数百万次点击(几年点击历史)。我们当前运行在postgres上的分析查询需要花费很长时间才能完成,并且会降低整个数据库的性能。我一直在调查可能的解决方案,并决定仔细研究两个选项:

  • HBase与Hadoop (mapreduce)
  • 卡桑德拉与星火

我以前使用过NoSQL,但是从未将其用于分析目的。起初,我对这些数据库提供的分析性查询选项(缺少groupBy、count、.)有点失望。在阅读了许多文章和演示文稿之后,我发现,我需要根据我打算读取数据的方式来设计我的模式,并且存储层和查询层是分开的。这增加了更多的冗余数据,但是在NoSQL世界中,这不是一个问题。

最后,我找到了一个不错的grails插件卡桑德拉-奥姆,它在cassandra计数器计数器中内部封装了orderBy特性。然而,我仍然担心如何使这个设计可以扩展。那些将来会出现的查询呢?我今天一点也不知道,我如何设计我的模式呢?一种选择是使用星火,但星火并不能实时提供数据。

你能给我一些洞察力或建议吗?大数据分析的最佳选择是什么?我应该使用实时查询和预聚合查询的组合吗?

谢谢,

EN

回答 2

Stack Overflow用户

发布于 2015-10-20 10:58:14

  1. 如果您正在查看近乎实时的数据分析,Spark + HBase组合是解决方案之一。
  2. 如果您想在吞吐量上妥协,可以使用Datastax的Solr + Cassandra组合。

我使用Datastax的Solr + Cassandra作为我的用例,它不需要实时处理。使用这个组合,搜索选项的性能不是很好,但我对吞吐量没有意见。

Spark+HBase组合似乎很有希望。根据您的业务需求和专业知识,您可以选择正确的组合。

票数 2
EN

Stack Overflow用户

发布于 2015-06-02 22:43:12

如果您希望能够以完全灵活的查询结构实时分析数据,我认为最好的选择是将可伸缩的索引引擎(如ElasticsearchSolr )放入您的多边形持久性组合中。您仍然可以使用Cassanra作为主要数据存储,然后对您感兴趣的查询和/或聚合字段进行索引。

看看Datastax企业,它将Cassandra和Solr捆绑在一起。还可以查看Solr的统计分量及其面影功能。这些与索引引擎丰富的查询语言相结合,可以方便地实现许多分析用例。

如果您的数据集包含几百万条记录“只有”,我认为您可以在一个规范合理的集群上从Solr或ES获得一些很好的响应时间。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/30600991

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档