我试图找出数据仓库、集群数据处理和用于查询数据仓库的工具/基础结构之间的区别(工具/服务/程序)
因此,假设我有下面的设置来为某个用例执行一些数据处理
Hadoop Cluster for Distributed Data processing
Hive for providing infrastructure and Functions for querying data from a data warehouse
My data sitting in an RDBMS or a NoSQL database在上面的例子中,数据仓库到底是什么?我天真的头脑认为这是关系数据库或NoSQL数据库在上面的上下文是数据仓库。但根据定义,数据仓库不是用于报告和数据分析的数据库吗?(定义无耻地从维基百科窃取)。所以,我可以将传统的RDBMS/NoSQL数据库称为数据仓库吗?谢谢。
发布于 2014-01-27 07:18:16
您不能将每个关系数据库系统称为数据仓库,因为数据仓库的主要功能之一是从多个数据库(具有不同模式)聚合数据。它通常是通过一个"星型模式“来完成的,它允许将多个维度和多个粒度结合起来。
因为NoSQL数据库系统(基于图形或基于地图的减少)是模式少的,所以它们确实可以存储来自不同模式的数据。此外,Map-还原可以用于聚合具有不同粒度的数据(例如,将每日汇总数据与月度数据进行比较)。
https://stackoverflow.com/questions/21373068
复制相似问题