首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于大数据商业智能报告的开源数据库?

用于大数据商业智能报告的开源数据库?
EN

Stack Overflow用户
提问于 2012-08-21 13:47:42
回答 2查看 449关注 0票数 0

我们公司有一个独特的报告需求。我们正在收集大量的数据,这些数据每隔X分钟就会出现在一个文件中。这些文件的大小可以在1到5MB之间,最多可包含一百万行。数据类似于从未更新的日志数据,并且非常结构化。尽管我们需要灵活性来支持数据模型中的更改。我们需要交付一些固定的(静态)报告,还有一些报告作为交互式仪表板的一部分。

对于固定报告,每天只需刷新一次数据。因此,我将使用Hive来完成此任务。到最后,文件大小将达到几Gbs,届时它将被推送到hadoop中,这样我们就不会遇到Hadoop的小文件问题。由于报告是静态的,所以即使Hive需要几秒钟/分钟来返回数据,也不会有太大影响。

但Hive将无法满足我们的交互式仪表板需求,因为这些报告需要在几秒钟内加载。这些报告将主要是时间序列报告,时间序列数据将存储长达一年。我想知道还有哪些数据库可以用于数据仓库/BI目的?我们需要一个稳定的开源数据库,它可以很好地处理大数据,允许快速写入和读取,具有良好的查询语言,能够以最少的编码实现报告。由于我们将使用Hadoop来处理封装的报告,因此如果该数据库可以直接与Hadoop+Hive一起使用,那将是最理想的。

我已经看过Hbase了--但不确定它是否能很好地处理每X分钟出现一次的小文件。Hbase是正确的选择吗?我们也欢迎DB的任何其他建议。

我们的报告非常基础,我们希望解决方案非常简单。附注:我们不想使用MySql。

EN

回答 2

Stack Overflow用户

发布于 2012-08-21 15:51:34

理想情况下,你正在寻找的是MPP数据库,如Netezza,Greenplum等,它们都是商业的。换句话说,我并不了解开源解决方案。最近的可能是infobright -它有用于MySQL的柱状引擎

没有很好的分析型开源数据库。我指的是具有下降并行查询能力的数据库+集群。

因此,我建议一些中间解决方案,其中Hive/Hadoop执行大量的聚合(构建多维数据集),而RDBMS用于服务交互式查询。

票数 0
EN

Stack Overflow用户

发布于 2012-08-28 18:33:59

我还建议使用Greenplum数据库。它不是开源的,但它有一个单节点版本,可以服务于of级的数据而不会出现任何问题。它有一个相当好的数据加载引擎和一个查询执行引擎--两者都是并行的。HP Vertica也将有一个社区版

Greenplum和Vertica都有到hadoop/hbase/hive的接口。

如果您只对开源感兴趣,请尝试MonetDB。它是开源的,但我没有使用它的经验。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12049059

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档