首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从头开始建数据湖

从头开始建数据湖
EN

Stack Overflow用户
提问于 2019-02-27 02:48:44
回答 2查看 830关注 0票数 2

我正试图从零开始构建一个“数据湖”。我理解数据湖是如何工作的,以及它的用途;它遍布互联网。但是,当问题出现时,如何从头开始建立一个,就没有来源了。我想知道如果:

数据仓库+ Hadoop =数据湖

我知道如何运行Hadoop并将数据导入Hadoop。我想在前提数据湖上建立一个示例来演示我的经理。任何帮助都是非常感谢的。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-02-27 06:52:20

您必须拥有结构化和非结构化的数据才能将Hadoop集群变成一个数据湖。

因此,您需要一些ETL管道来获取非结构化数据并将其转换为结构化数据。产品评审或类似的内容将提供您的非结构化数据。将其转换为Hive可以使用的东西(例如)将为您提供结构化数据。

我想看看https://opendata.stackexchange.com/获取您的数据,google了解如何清理这些数据的想法。这取决于你如何写你的管道(星火或MapReduce)。

票数 0
EN

Stack Overflow用户

发布于 2020-02-07 05:32:44

您可以使用AWS服务构建数据蛋糕。这样做的一个简单方法是使用AWS CloudFormation模板来配置该解决方案,包括AWS服务,例如用于无限数据存储的S3服务、用于身份验证的亚马逊认知搜索服务、用于强大搜索功能的analytics服务、用于微服务的AWS服务、用于数据传输的AWS服务和用于数据分析的Athena服务。下图表示了使用AWS服务在AWS上构建数据湖的完整体系结构。

参考本文:https://medium.com/@pmahmoudzadeh/building-a-data-lake-on-aws-3f02f66a079e

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54897265

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档