我正在寻找这些开源工具,可能是免费的,也可能是免费的试用版,用来建立完整的数据仓库堆栈。
我知道像Pentaho这样开源的Mondrian服务器很少,但无法获得任何谷歌结果来建立完整的平台。我不确定这些组件是否相互兼容?有人能列出他们和他们在链中的位置吗?
发布于 2010-07-28 13:36:26
Open Source Data Warehousing在识别可用于构建数据仓库堆栈的开放源码软件组件方面做得很好:基础设施(服务器、操作系统、数据库)、集成管理(ETL、企业应用集成等)、信息管理(DW/Mart/ODS、OLap服务器等)、信息交付(门户网站、仪表板、分析/联机分析处理客户端等)。以下是摘要:
开源BI/DW项目
BI和分析
H116- http://openi.sourceforge.net OpenReports - http://oreports.com 橙色- http://www.ailab.si/orange Palo -C26 H32R- http://www.r-project.org 33< http://www.cs.waikato.ac.nz/~ml/index.htmlVitalSigns ->36/code->H119>数据库
http://greenplum.org (bizgres) http://www.ingres.com http://www.mysql.com http://www.postgresql.org http://www.enterprisedb.com (Bizgres)
集成
Apatar - http://www.apatar.com CloverETL - http://cloveretl.berlios.de/ JitterBit - http://www.jitterbit.com/ <代码>H171KETL-<代码>C72<代码>H174Octopus- http://www.enhydra.org/tech/octopus/index.html<代码>H189Talend- http://www.talend.comSaga.M31
-Talend-http://www.talend.com<代码>H291我建议您浏览一下演示文稿。好东西。
发布于 2010-07-23 17:05:53
数据仓库堆栈(或套件)通常由三层组成。这些通常被引用为ETL (加载),Database & Reporting (接口)。此外,还有一些更高级的工具来满足性能和专家需求。它们由Cubes和Statistical Analysis Tools组成。
就互操作性而言,ETL工具和报告工具需要支持您正在使用的任何数据库。但是,由于只有两个大型开源数据库,因此混合使用不同的解决方案通常没有问题。
至于细节-
1- ETL
数据加载可以通过开源工具来实现,比如Pentaho的Data Integration或Talend (一种eclipse扩展)。我建议googling一下"open source etl“来为你的特定需求量身定制解决方案。
2- DB
您将需要一个关系数据库(RDBMS)。两个最著名的开源播放器是PostgreSQL (由Stack Overflow使用)和MySQL。虽然MySQL拥有更大的用户基础,但由于实现了早期版本中缺失的几个关键功能,Postgres获得了更多的人气。
3- Reporting
五角大楼提供报告平台。BIRT (另一个eclipse扩展)也是如此。再说一次,谷歌是你进行具体比较的朋友。请注意,如果您同时为ETL和报告工具选择了Pentaho,您可能会享受到更好的集成。您还提到了Mondrian,这是一个通过RDBMS生成MDX查询的工具。MDX是查询多维数据集的标准语言。
此时,假设您正在从头开始,我建议您设置数据仓库的前两层- ETL和DB。您可以稍后添加上述任意数量的报告工具。
发布于 2010-07-26 17:31:19
这是另一个类似的问题20 Billion Rows/Month - Hbase / Hive / Greenplum / What?
最相关的部分:
我再怎么强调这一点也不为过:获得一些可以很好地与现成的报告工具配合使用的工具。
。
Python或HBase让您从事构建自定义前端的业务,除非您愿意在接下来的5年中用
编写自定义报告格式化程序,否则您实际上不需要这样的前端。
https://stackoverflow.com/questions/3308238
复制相似问题