首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >处理数据仓库中的大数据

处理数据仓库中的大数据
EN

Stack Overflow用户
提问于 2015-04-28 06:46:06
回答 2查看 560关注 0票数 5

我是一个学习大数据的概念。基于我的理解,大数据是处理非结构化数据和高volume.When的关键,我们研究了数据仓库( datawarehouse,DW )的大数据体系结构,从源数据通过Hadoop (HDFS和Mapreduce)提取数据,并将相关的非结构化信息转换为有效的业务信息,最后通过ETL处理(以及现有的结构化数据处理)将数据注入DW或DataMart。

但是,我想知道DW对组织(由于大数据)所需的新技术/新维度模型或存储需求是什么,因为我尝试学习的大多数教程/资源只在源上讨论Hadoop,而不是在目标上。由于大量的数据,大数据的引入如何影响组织的预定义报告/临时分析?

感谢你的回应

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-04-28 10:40:44

这是一个非常宽泛的问题,但我会尽量给出一些答案。

Hadoop可以是一个数据源、一个数据仓库或一个“数据湖”,它是一个数据存储库,可以从中提取仓库和集市。

Hadoop和基于RDBMS的数据仓库之间的界限越来越模糊。随着基于Hadoop的SQL成为现实,与基于Hadoop的数据的交互变得越来越容易。然而,要想有效,数据中必须有结构。

Hadoop/DW相互作用的一些例子:

  • Microsoft应用平台系统,SQL Server与Hadoop之间具有多基交互
  • Impala (Cloudera)、Stinger (Hortonworks)和其他提供SQL on Hadoop的人
  • Actian和Vertica (HP)在Hadoop上提供与RDBMS兼容的MPP

也就是说,Hadoop还不成熟。它的性能不如基于RDBMS的DW,缺乏许多安全和操作特性,也缺乏SQL功能。在走这条路之前,仔细考虑一下你的需求。

你应该问的另一个问题是你是否真的需要这种类型的平台。任何RDBMS都可以处理3-5Tb的数据。Server和PostgreSQL是两个可以在普通硬件上处理数据仓库的平台,以及可忽略的管理。

同样的RDBMS可以处理100 at的工作负载,但在这种规模下,它们需要更多的照顾和喂食。

MPP RDBMS设备将数据工作负载处理到Petabyte范围内,在扩展时具有较低的管理和操作开销。如果复杂查询的速度是您最重要的因素,那么您可能会选择MPP设备来获取更小的数据量。出于这个原因,我看到MPP设备部署在5Tb这样的数据量上。

根据加载技术的不同,您可能会发现基于RDBMS的DW加载速度比Hadoop快。例如,我以每秒数十万行的速度加载到PostgreSQL中,而在Server中的加载量略小于每秒数十万行。在Hadoop中实现相同的结果需要花费更长的时间,因为我必须摄取文件,在Hive中建立它,并将它移到Parquet以获得类似的输出性能。随着时间的推移,我预计这将有利于Hadoop,但它还没有完全实现。

你提到了空间造型。如果您的星型模式由事务性事实数据表和SCD0-SCD1维度组成,因此需要只进行插入处理,那么您可能成功地使用了SQL on Hadoop。如果您需要更新事实(积累快照)或维度(SCD2,SCD3),那么您可能会在能力和性能方面都有困难--许多实现还不支持更新查询,而那些实现则很慢。

对不起,没有一个简单的“做这件事!”回答,但在一个不成熟的领域,这是一个复杂的话题。我希望这些评论能帮助你思考。

票数 7
EN

Stack Overflow用户

发布于 2016-01-03 20:59:09

数据湖和数据仓库的过程是不一样的。传统意义上的维度建模是从业务流程识别和星型模式设计开始的,在数据湖上,您没有对业务process.The数据湖提出任何假设,而是尽可能地在非常细粒度的级别收集数据,并对其进行探索并找到业务流程。您可以在企业数据湖简介-神话与奇迹上阅读更多有关数据湖的信息。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29912160

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档