文章/答案/技术大牛

发布

社区首页 >问答首页 >处理数据仓库中的大数据

问处理数据仓库中的大数据
EN

Stack Overflow用户

提问于 2015-04-28 06:46:06

回答 2查看 560关注 0票数 5

我是一个学习大数据的概念。基于我的理解，大数据是处理非结构化数据和高volume.When的关键，我们研究了数据仓库( datawarehouse，DW )的大数据体系结构，从源数据通过Hadoop (HDFS和Mapreduce)提取数据，并将相关的非结构化信息转换为有效的业务信息，最后通过ETL处理(以及现有的结构化数据处理)将数据注入DW或DataMart。

但是，我想知道DW对组织(由于大数据)所需的新技术/新维度模型或存储需求是什么，因为我尝试学习的大多数教程/资源只在源上讨论Hadoop，而不是在目标上。由于大量的数据，大数据的引入如何影响组织的预定义报告/临时分析？

感谢你的回应

hadoop

bigdata

data-warehouse

datamart

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-04-28 10:40:44

这是一个非常宽泛的问题，但我会尽量给出一些答案。

Hadoop可以是一个数据源、一个数据仓库或一个“数据湖”，它是一个数据存储库，可以从中提取仓库和集市。

Hadoop和基于RDBMS的数据仓库之间的界限越来越模糊。随着基于Hadoop的SQL成为现实，与基于Hadoop的数据的交互变得越来越容易。然而，要想有效，数据中必须有结构。

Hadoop/DW相互作用的一些例子：

Microsoft应用平台系统，SQL Server与Hadoop之间具有多基交互
Impala (Cloudera)、Stinger (Hortonworks)和其他提供SQL on Hadoop的人
Actian和Vertica (HP)在Hadoop上提供与RDBMS兼容的MPP

也就是说，Hadoop还不成熟。它的性能不如基于RDBMS的DW，缺乏许多安全和操作特性，也缺乏SQL功能。在走这条路之前，仔细考虑一下你的需求。

你应该问的另一个问题是你是否真的需要这种类型的平台。任何RDBMS都可以处理3-5Tb的数据。Server和PostgreSQL是两个可以在普通硬件上处理数据仓库的平台，以及可忽略的管理。

同样的RDBMS可以处理100 at的工作负载，但在这种规模下，它们需要更多的照顾和喂食。

MPP RDBMS设备将数据工作负载处理到Petabyte范围内，在扩展时具有较低的管理和操作开销。如果复杂查询的速度是您最重要的因素，那么您可能会选择MPP设备来获取更小的数据量。出于这个原因，我看到MPP设备部署在5Tb这样的数据量上。

根据加载技术的不同，您可能会发现基于RDBMS的DW加载速度比Hadoop快。例如，我以每秒数十万行的速度加载到PostgreSQL中，而在Server中的加载量略小于每秒数十万行。在Hadoop中实现相同的结果需要花费更长的时间，因为我必须摄取文件，在Hive中建立它，并将它移到Parquet以获得类似的输出性能。随着时间的推移，我预计这将有利于Hadoop，但它还没有完全实现。

你提到了空间造型。如果您的星型模式由事务性事实数据表和SCD0-SCD1维度组成，因此需要只进行插入处理，那么您可能成功地使用了SQL on Hadoop。如果您需要更新事实(积累快照)或维度(SCD2，SCD3)，那么您可能会在能力和性能方面都有困难--许多实现还不支持更新查询，而那些实现则很慢。

对不起，没有一个简单的“做这件事！”回答，但在一个不成熟的领域，这是一个复杂的话题。我希望这些评论能帮助你思考。

票数 7

Stack Overflow用户

发布于 2016-01-03 20:59:09

数据湖和数据仓库的过程是不一样的。传统意义上的维度建模是从业务流程识别和星型模式设计开始的，在数据湖上，您没有对业务process.The数据湖提出任何假设，而是尽可能地在非常细粒度的级别收集数据，并对其进行探索并找到业务流程。您可以在企业数据湖简介-神话与奇迹上阅读更多有关数据湖的信息。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/29912160

复制

相似问题

问处理数据仓库中的大数据
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问处理数据仓库中的大数据EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问处理数据仓库中的大数据
EN