首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >商务智能设计中Hadoop的评估与比较

商务智能设计中Hadoop的评估与比较
EN

Stack Overflow用户
提问于 2011-06-18 10:58:33
回答 4查看 1.3K关注 0票数 2

我正在考虑用于数据仓库和商业智能的各种技术,并出现了一个名为Hadoop的激进工具。Hadoop似乎并不完全是为BI目的而构建的,但是有一些引用表明它在这一领域具有潜在的潜力。( http://www.infoworld.com/d/data-explosion/hadoop-pitched-business-intelligence-488)。

不管我从互联网上得到的信息多么少,我的直觉告诉我,hadoop可以成为传统BI解决方案领域中的一项颠覆性技术。有关这个主题的信息实在不多,因此我想在这里收集Guru关于Hadoop作为BI工具的潜力的所有想法,而不是传统的后端BI基础设施,如Oracle等。首先,我想问以下问题-

  • Design关注点--使用Hadoop设计BI解决方案与传统工具有何不同?我知道这应该是不同的,因为我读到不能在Hadoop中创建模式。我还读到,最大的优势将是完全消除Hadoop的ETL工具(这是真的吗?)我们需要Hadoop + pig + mahout来获得BI解决方案吗??

谢谢和问候!

编辑-分解成多个问题。会从我认为最重要的那个开始。

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2011-06-20 17:31:55

Hadoop是成为BI解决方案一部分的一个很好的工具。它本身并不是BI解决方案。Hadoop所做的是接受Data_A并输出Data_B,任何Bi所需但不是有用的形式都可以使用MapReduce进行处理,并输出有用的数据形式。无论是CSV、HIVE、HBase、MSSQL或其他用于查看数据的内容。

我相信Hadoop应该是ETL工具。这就是我们使用它的目的。我们每小时处理一组日志文件,并将其存储在Hive中,并进行每天的聚合,这些聚合将加载到MSSQL服务器并通过可视化层查看。

我遇到的主要设计注意事项是:

  • Data灵活性:您希望您的用户查看预先聚合的数据还是具有调整查询和查看数据的灵活性--他们是如何want
  • Speed:,您希望用户等待这些数据多长时间?蜂巢(例如)是缓慢的。生成结果需要几分钟,即使在相当小的数据集上也是如此。数据越大,生成result.
  • Visualization:所需的时间就越长,您想使用哪种类型的可视化?你是想定制很多件,还是能用一些现成的东西?你的可视化需要什么样的约束和灵活性?可视化需要有多大的灵活性和可变性?

hth

更新:作为对@Bhat关于缺乏可视化的评论的回应。

缺乏可视化工具使我们能够有效地利用存储在HBase中的数据,这是重新评估我们的解决方案的一个主要因素。我们将原始数据存储在Hive中,并对数据进行预聚合并存储为HBase。为了利用这一点,我们必须编写一个自定义连接器(完成此部分)和可视化层。我们研究了我们能够生产的东西和商业上可以获得的东西,然后走了商业路线。

我们仍然使用Hadoop作为我们的ETL工具来处理我们的博客,这是非常棒的。我们只需将ETL的原始数据发送到一个商业大数据数据库,它将在我们的设计中取代Hive和HBase。

Hadoop并不比MSSQL或其他数据仓库存储更好。Hadoop不做任何存储(忽略HDFS),它处理数据。运行MapReduces ( Hive所做的)将比MSSQL (或类似的)慢。

票数 2
EN

Stack Overflow用户

发布于 2011-06-20 14:06:10

Hadoop非常适合存储可以表示事实表的巨大文件。这些表可以通过将表示表的单个文件放置到单独的目录中进行分区。Hive理解这样的文件结构,并允许像分区表一样查询它们。您可以通过Hive以SQL查询的形式将BI问题与Hadoop数据联系起来,但仍然需要编写和运行偶尔的MapReduce作业。

票数 2
EN

Stack Overflow用户

发布于 2011-06-22 12:38:51

从业务角度来看,如果有大量低值数据,则应该考虑Hadoop。在许多情况下,RDBMS / MPP解决方案成本效益不高。如果数据不是结构化的(例如HTML),您还应该将Hadoop视为一个严肃的选项。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6395495

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档