我正在考虑用于数据仓库和商业智能的各种技术,并出现了一个名为Hadoop的激进工具。Hadoop似乎并不完全是为BI目的而构建的,但是有一些引用表明它在这一领域具有潜在的潜力。( http://www.infoworld.com/d/data-explosion/hadoop-pitched-business-intelligence-488)。
不管我从互联网上得到的信息多么少,我的直觉告诉我,hadoop可以成为传统BI解决方案领域中的一项颠覆性技术。有关这个主题的信息实在不多,因此我想在这里收集Guru关于Hadoop作为BI工具的潜力的所有想法,而不是传统的后端BI基础设施,如Oracle等。首先,我想问以下问题-
谢谢和问候!
编辑-分解成多个问题。会从我认为最重要的那个开始。
发布于 2011-06-20 17:31:55
Hadoop是成为BI解决方案一部分的一个很好的工具。它本身并不是BI解决方案。Hadoop所做的是接受Data_A并输出Data_B,任何Bi所需但不是有用的形式都可以使用MapReduce进行处理,并输出有用的数据形式。无论是CSV、HIVE、HBase、MSSQL或其他用于查看数据的内容。
我相信Hadoop应该是ETL工具。这就是我们使用它的目的。我们每小时处理一组日志文件,并将其存储在Hive中,并进行每天的聚合,这些聚合将加载到MSSQL服务器并通过可视化层查看。
我遇到的主要设计注意事项是:
hth
更新:作为对@Bhat关于缺乏可视化的评论的回应。
缺乏可视化工具使我们能够有效地利用存储在HBase中的数据,这是重新评估我们的解决方案的一个主要因素。我们将原始数据存储在Hive中,并对数据进行预聚合并存储为HBase。为了利用这一点,我们必须编写一个自定义连接器(完成此部分)和可视化层。我们研究了我们能够生产的东西和商业上可以获得的东西,然后走了商业路线。
我们仍然使用Hadoop作为我们的ETL工具来处理我们的博客,这是非常棒的。我们只需将ETL的原始数据发送到一个商业大数据数据库,它将在我们的设计中取代Hive和HBase。
Hadoop并不比MSSQL或其他数据仓库存储更好。Hadoop不做任何存储(忽略HDFS),它处理数据。运行MapReduces ( Hive所做的)将比MSSQL (或类似的)慢。
发布于 2011-06-20 14:06:10
Hadoop非常适合存储可以表示事实表的巨大文件。这些表可以通过将表示表的单个文件放置到单独的目录中进行分区。Hive理解这样的文件结构,并允许像分区表一样查询它们。您可以通过Hive以SQL查询的形式将BI问题与Hadoop数据联系起来,但仍然需要编写和运行偶尔的MapReduce作业。
发布于 2011-06-22 12:38:51
从业务角度来看,如果有大量低值数据,则应该考虑Hadoop。在许多情况下,RDBMS / MPP解决方案成本效益不高。如果数据不是结构化的(例如HTML),您还应该将Hadoop视为一个严肃的选项。
https://stackoverflow.com/questions/6395495
复制相似问题