首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >AWS数据湖

AWS数据湖
EN

Stack Overflow用户
提问于 2017-09-21 19:01:33
回答 1查看 1.1K关注 0票数 2

您需要使用胶水摄取excel和其他专有格式吗?还是允许胶水在您的数据湖中爬行s3桶以使用这些数据格式?

我已经浏览过"AWS云上的数据湖基金会“文档,我不得不绞尽脑汁地想要把数据输入湖里。我有一个数据提供程序,它以excel和access文件的形式存储在他们的系统中。

基于流程流,他们会将数据上载到提交s3桶中,这将引发一系列操作,但没有将数据转换为与其他工具一起工作的格式。

使用这些文件是否需要对在桶中提交的数据使用胶水,还是有其他方法使这些数据可用于其他工具,如雅典娜和红移光谱?

感谢你在这个话题上所能提供的任何启示。

-Guido

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-09-21 20:00:47

我看不出它可以直接将excel数据带到data。在加载到Data之前,您可能需要转换为CSV/TSV/Json或其他格式。

红移谱支持的格式:

http://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-data-files.html

雅典娜支持的文件格式:

http://docs.aws.amazon.com/athena/latest/ug/supported-formats.html --我看这里也不支持Excel。

您需要上传文件到S3,要么使用雅典娜或红移频谱,甚至红移存储本身。

将文件上传到S3:

如果您有更大的文件,您需要使用S3多部分上传,以更快地上传。如果您想要更快的速度,您需要使用S3加速器上传您的文件。

用雅典娜查询大数据的

您可以从S3位置使用雅典娜创建外部表。创建外部表后,使用雅典娜Sql引用查询数据。

http://docs.aws.amazon.com/athena/latest/ug/language-reference.html

用红移谱查询大数据的

类似于雅典娜,您可以使用Redshift创建外部表。开始查询这些表,并在Redshift上获得结果。

Redshift有很多商业工具,我使用SQL。它是免费的开源和岩石实体,由AWS支持。

SQL WorkBench:http://www.sql-workbench.net/

将您的WorkBench连接到Redshift:http://docs.aws.amazon.com/redshift/latest/mgmt/connecting-using-workbench.html

将数据复制到Redshift:

另外,如果要将数据存储带到Redshift,可以使用copy命令从S3中提取数据,并将其加载到Redshift。

复制命令示例:

examples.html

红移群集大小和节点数:

在创建红移群集之前,请检查所需节点的大小和数量。更多的节点可以并行运行查询。一个更重要的因素是您的数据分布得有多好。(分发键和排序键)

我有一个很好的经验,红移,达到速度可能需要一些时间。

希望能帮上忙。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46351376

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档