文章/答案/技术大牛

发布

社区首页 >问答首页 >从头开始建数据湖

问从头开始建数据湖
EN

Stack Overflow用户

提问于 2019-02-27 02:48:44

回答 2查看 830关注 0票数 2

我正试图从零开始构建一个“数据湖”。我理解数据湖是如何工作的，以及它的用途；它遍布互联网。但是，当问题出现时，如何从头开始建立一个，就没有来源了。我想知道如果：

数据仓库+ Hadoop =数据湖

我知道如何运行Hadoop并将数据导入Hadoop。我想在前提数据湖上建立一个示例来演示我的经理。任何帮助都是非常感谢的。

data-warehouse

data-lake

hadoop

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-02-27 06:52:20

您必须拥有结构化和非结构化的数据才能将Hadoop集群变成一个数据湖。

因此，您需要一些ETL管道来获取非结构化数据并将其转换为结构化数据。产品评审或类似的内容将提供您的非结构化数据。将其转换为Hive可以使用的东西(例如)将为您提供结构化数据。

我想看看https://opendata.stackexchange.com/获取您的数据，google了解如何清理这些数据的想法。这取决于你如何写你的管道(星火或MapReduce)。

票数 0

Stack Overflow用户

发布于 2020-02-07 05:32:44

您可以使用AWS服务构建数据蛋糕。这样做的一个简单方法是使用AWS CloudFormation模板来配置该解决方案，包括AWS服务，例如用于无限数据存储的S3服务、用于身份验证的亚马逊认知搜索服务、用于强大搜索功能的analytics服务、用于微服务的AWS服务、用于数据传输的AWS服务和用于数据分析的Athena服务。下图表示了使用AWS服务在AWS上构建数据湖的完整体系结构。

参考本文：https://medium.com/@pmahmoudzadeh/building-a-data-lake-on-aws-3f02f66a079e

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54897265

复制

相似问题

问从头开始建数据湖
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从头开始建数据湖EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从头开始建数据湖
EN