我正在尝试将我们的postgres数据库迁移到更多的执行系统,该数据库包含数百万次点击(几年点击历史)。我们当前运行在postgres上的分析查询需要花费很长时间才能完成,并且会降低整个数据库的性能。我一直在调查可能的解决方案,并决定仔细研究两个选项:
我以前使用过NoSQL,但是从未将其用于分析目的。起初,我对这些数据库提供的分析性查询选项(缺少groupBy、count、.)有点失望。在阅读了许多文章和演示文稿之后,我发现,我需要根据我打算读取数据的方式来设计我的模式,并且存储层和查询层是分开的。这增加了更多的冗余数据,但是在NoSQL世界中,这不是一个问题。
最后,我找到了一个不错的grails插件卡桑德拉-奥姆,它在cassandra计数器计数器中内部封装了orderBy特性。然而,我仍然担心如何使这个设计可以扩展。那些将来会出现的查询呢?我今天一点也不知道,我如何设计我的模式呢?一种选择是使用星火,但星火并不能实时提供数据。
你能给我一些洞察力或建议吗?大数据分析的最佳选择是什么?我应该使用实时查询和预聚合查询的组合吗?
谢谢,
发布于 2015-10-20 10:58:14
我使用Datastax的Solr + Cassandra作为我的用例,它不需要实时处理。使用这个组合,搜索选项的性能不是很好,但我对吞吐量没有意见。
Spark+HBase组合似乎很有希望。根据您的业务需求和专业知识,您可以选择正确的组合。
发布于 2015-06-02 22:43:12
https://stackoverflow.com/questions/30600991
复制相似问题