首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >构建一个完整的数据仓库平台有哪些开源工具和技术?

构建一个完整的数据仓库平台有哪些开源工具和技术?
EN

Stack Overflow用户
提问于 2010-07-22 19:19:10
回答 5查看 48.7K关注 0票数 38

我正在寻找这些开源工具,可能是免费的,也可能是免费的试用版,用来建立完整的数据仓库堆栈。

我知道像Pentaho这样开源的Mondrian服务器很少,但无法获得任何谷歌结果来建立完整的平台。我不确定这些组件是否相互兼容?有人能列出他们和他们在链中的位置吗?

EN

回答 5

Stack Overflow用户

回答已采纳

发布于 2010-07-28 13:36:26

Open Source Data Warehousing在识别可用于构建数据仓库堆栈的开放源码软件组件方面做得很好:基础设施(服务器、操作系统、数据库)、集成管理(ETL、企业应用集成等)、信息管理(DW/Mart/ODS、OLap服务器等)、信息交付(门户网站、仪表板、分析/联机分析处理客户端等)。以下是摘要:

开源BI/DW项目

BI和分析

  • BEE - http://bee.insightstrategy.cz/en/index.html
  • BIRT - http://www.eclipse.org/birt
  • JasperSoft - http://www.jaspersoft.com
  • MarvelIT - http://www.marvelit.com/dash.html H116- http://openi.sourceforge.net
  • OpenReports - http://oreports.com
  • 橙色- http://www.ailab.si/orange
  • Palo -C26
  • Pentaho - http://www.pentaho.com H230H32R- http://www.r-project.org 33
  • SpagoBI--< http://www.cs.waikato.ac.nz/~ml/index.html
  • VitalSigns ->36/code->H119>

数据库

  • http://greenplum.org (bizgres)
  • http://www.ingres.com
  • http://www.mysql.com
  • http://www.postgresql.org
  • http://www.enterprisedb.com

(Bizgres)

集成

  • Apatar - http://www.apatar.com
  • CloverETL - http://cloveretl.berlios.de/
  • JitterBit - http://www.jitterbit.com/ <代码>H171KETL-<代码>C72<代码>H174Octopus- http://www.enhydra.org/tech/octopus/index.html
  • OSDQ - http://sourceforge.net/projects/dataquality
  • Pentaho -<代码>C81<代码>H282<代码>H183红帽- http://www.redhat.com <代码>H186Saga.M31银河-

<代码>H189Talend- http://www.talend.comSaga.M31

  • -
  • Talend-http://www.talend.com<代码>H291

我建议您浏览一下演示文稿。好东西。

票数 55
EN

Stack Overflow用户

发布于 2010-07-23 17:05:53

数据仓库堆栈(或套件)通常由三层组成。这些通常被引用为ETL (加载),Database & Reporting (接口)。此外,还有一些更高级的工具来满足性能和专家需求。它们由CubesStatistical Analysis Tools组成。

就互操作性而言,ETL工具和报告工具需要支持您正在使用的任何数据库。但是,由于只有两个大型开源数据库,因此混合使用不同的解决方案通常没有问题。

至于细节-

1- ETL

数据加载可以通过开源工具来实现,比如Pentaho的Data Integration或Talend (一种eclipse扩展)。我建议googling一下"open source etl“来为你的特定需求量身定制解决方案。

2- DB

您将需要一个关系数据库(RDBMS)。两个最著名的开源播放器是PostgreSQL (由Stack Overflow使用)和MySQL。虽然MySQL拥有更大的用户基础,但由于实现了早期版本中缺失的几个关键功能,Postgres获得了更多的人气。

3- Reporting

五角大楼提供报告平台。BIRT (另一个eclipse扩展)也是如此。再说一次,谷歌是你进行具体比较的朋友。请注意,如果您同时为ETL和报告工具选择了Pentaho,您可能会享受到更好的集成。您还提到了Mondrian,这是一个通过RDBMS生成MDX查询的工具。MDX是查询多维数据集的标准语言。

此时,假设您正在从头开始,我建议您设置数据仓库的前两层- ETL和DB。您可以稍后添加上述任意数量的报告工具。

票数 10
EN

Stack Overflow用户

发布于 2010-07-26 17:31:19

这是另一个类似的问题20 Billion Rows/Month - Hbase / Hive / Greenplum / What?

最相关的部分:

我再怎么强调这一点也不为过:获得一些可以很好地与现成的报告工具配合使用的工具。

Python或HBase让您从事构建自定义前端的业务,除非您愿意在接下来的5年中用

编写自定义报告格式化程序,否则您实际上不需要这样的前端。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3308238

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档