首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >什么是数据湖?

什么是数据湖?
EN

Data Science用户
提问于 2019-04-24 02:53:51
回答 4查看 493关注 0票数 1

我熟悉“大数据”的概念,但“数据湖”与“大数据”有何不同?它是从大数据衍生出来的吗?请解释一下。

EN

回答 4

Data Science用户

回答已采纳

发布于 2019-04-24 04:37:07

大数据是一个与从大数据集中提取信息有关的术语。它有时也用于来自大型数据集的预测。大数据指向数据的“大”方面。

数据湖是一个在数据系统中存储和提供数据的概念,无论数据的大小如何。data的目标是成为一家公司的单一数据存储库,以便更好地管理和访问这些数据。

票数 3
EN

Data Science用户

发布于 2020-02-24 16:03:34

什么是数据湖?

数据池是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按照-原样存储数据,而不必先构造数据,并运行不同类型的分析--从仪表板和可视化到大数据处理、实时分析和机器学习,以指导更好的决策。

为什么你需要一个数据湖?

成功地从他们的数据中产生业务价值的组织将优于他们的同行。阿伯丁的一项调查显示,在有机收入增长方面,实施数据湖( Data )的机构业绩比同类公司高出9%。这些领导者能够进行新类型的分析,比如通过新的资源进行机器学习,如日志文件、点击流中的数据、社交媒体以及存储在数据湖中的互联网连接设备。这有助于他们通过吸引和留住客户、提高生产力、主动维护设备和做出明智的决策,更快地发现并抓住业务增长的机会。与数据仓库相比较-两种不同的方法

根据不同的需求,一个典型的组织将同时需要一个数据仓库和一个数据湖,因为它们为不同的需求和用例服务。

数据仓库是一个经过优化的数据库,用于分析来自事务性系统和业务应用程序行的关系数据。数据结构和模式是预先定义的,以优化快速SQL查询,其中的结果通常用于操作报告和分析。数据被清理、丰富和转换,因此它可以充当用户可以信任的“真理的单一来源”。

数据池是不同的,因为它存储来自业务应用程序行的关系数据,以及来自移动应用程序、IoT设备和社交媒体的非关系数据。捕获数据时未定义数据或架构的结构。这意味着您可以存储所有的数据,而无需仔细设计,也不需要知道将来可能需要回答哪些问题。您的数据上的不同类型的分析,如SQL查询、大数据分析、全文搜索、实时分析和机器学习,都可以用来揭示真知灼见。

随着拥有数据仓库的组织看到了数据湖的好处,他们正在发展他们的仓库以包括数据湖,并启用不同的查询功能、数据科学用例和发现新信息模型的高级功能。Gartner将这一演变命名为“用于分析的数据管理解决方案”或“DMSA”。

什么是数据湖?

票数 2
EN

Data Science用户

发布于 2021-06-09 13:21:27

数据湖:

数据池是一个通用的、高可伸缩性的、低成本的原始数据存储层.如果数据仓库是经过预处理和加载以回答特定的以业务为中心的问题的有目的结构化数据的来源,那么数据湖就是将来可能具有重要意义的数据的中转区域。

为什么?

考虑到企业在其产生的大部分数据中都采用了“存储一切”的心态,因此必须有一个存储层,它可以扩展以满足明天的存储需求,同时也提供今天的好处。

挑战:

然而,存储原始数据的挑战在利用和为这些原始潜力的深层池提供目的时就会显现出来。面临的挑战是,在数据等待的几个月和几年中,正在产生的数据的变化以及缺乏准确记录各点记录的记录都可能使旧的数据无法使用。这会大大增加使用数据的准备时间,或者由于数据随时间的损坏而导致数年的数据被丢弃。

技术提示:

因此,尽管数据湖在概念上是原始数据的存储区域,但仍然需要提供适度的努力,以确保数据损坏不会在此过程中发生,而且业务可以在实际操作时实际使用数据。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/50815

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档