您需要使用胶水摄取excel和其他专有格式吗?还是允许胶水在您的数据湖中爬行s3桶以使用这些数据格式?
我已经浏览过"AWS云上的数据湖基金会“文档,我不得不绞尽脑汁地想要把数据输入湖里。我有一个数据提供程序,它以excel和access文件的形式存储在他们的系统中。
基于流程流,他们会将数据上载到提交s3桶中,这将引发一系列操作,但没有将数据转换为与其他工具一起工作的格式。
使用这些文件是否需要对在桶中提交的数据使用胶水,还是有其他方法使这些数据可用于其他工具,如雅典娜和红移光谱?
感谢你在这个话题上所能提供的任何启示。
-Guido
发布于 2017-09-21 20:00:47
我看不出它可以直接将excel数据带到data。在加载到Data之前,您可能需要转换为CSV/TSV/Json或其他格式。
红移谱支持的格式:
http://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-data-files.html
雅典娜支持的文件格式:
http://docs.aws.amazon.com/athena/latest/ug/supported-formats.html --我看这里也不支持Excel。
您需要上传文件到S3,要么使用雅典娜或红移频谱,甚至红移存储本身。
将文件上传到S3:
如果您有更大的文件,您需要使用S3多部分上传,以更快地上传。如果您想要更快的速度,您需要使用S3加速器上传您的文件。
用雅典娜查询大数据的:
您可以从S3位置使用雅典娜创建外部表。创建外部表后,使用雅典娜Sql引用查询数据。
http://docs.aws.amazon.com/athena/latest/ug/language-reference.html
用红移谱查询大数据的:
类似于雅典娜,您可以使用Redshift创建外部表。开始查询这些表,并在Redshift上获得结果。
Redshift有很多商业工具,我使用SQL。它是免费的开源和岩石实体,由AWS支持。
SQL WorkBench:http://www.sql-workbench.net/
将您的WorkBench连接到Redshift:http://docs.aws.amazon.com/redshift/latest/mgmt/connecting-using-workbench.html
将数据复制到Redshift:
另外,如果要将数据存储带到Redshift,可以使用copy命令从S3中提取数据,并将其加载到Redshift。
复制命令示例:
examples.html
红移群集大小和节点数:
在创建红移群集之前,请检查所需节点的大小和数量。更多的节点可以并行运行查询。一个更重要的因素是您的数据分布得有多好。(分发键和排序键)
我有一个很好的经验,红移,达到速度可能需要一些时间。
希望能帮上忙。
https://stackoverflow.com/questions/46351376
复制相似问题