我正试图从零开始构建一个“数据湖”。我理解数据湖是如何工作的,以及它的用途;它遍布互联网。但是,当问题出现时,如何从头开始建立一个,就没有来源了。我想知道如果:
数据仓库+ Hadoop =数据湖
我知道如何运行Hadoop并将数据导入Hadoop。我想在前提数据湖上建立一个示例来演示我的经理。任何帮助都是非常感谢的。
发布于 2019-02-27 06:52:20
您必须拥有结构化和非结构化的数据才能将Hadoop集群变成一个数据湖。
因此,您需要一些ETL管道来获取非结构化数据并将其转换为结构化数据。产品评审或类似的内容将提供您的非结构化数据。将其转换为Hive可以使用的东西(例如)将为您提供结构化数据。
我想看看https://opendata.stackexchange.com/获取您的数据,google了解如何清理这些数据的想法。这取决于你如何写你的管道(星火或MapReduce)。
发布于 2020-02-07 05:32:44
您可以使用AWS服务构建数据蛋糕。这样做的一个简单方法是使用AWS CloudFormation模板来配置该解决方案,包括AWS服务,例如用于无限数据存储的S3服务、用于身份验证的亚马逊认知搜索服务、用于强大搜索功能的analytics服务、用于微服务的AWS服务、用于数据传输的AWS服务和用于数据分析的Athena服务。下图表示了使用AWS服务在AWS上构建数据湖的完整体系结构。
参考本文:https://medium.com/@pmahmoudzadeh/building-a-data-lake-on-aws-3f02f66a079e
https://stackoverflow.com/questions/54897265
复制相似问题