首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >亚马逊Aurora RDS的大数据分析

亚马逊Aurora RDS的大数据分析
EN

Stack Overflow用户
提问于 2018-10-09 18:04:25
回答 1查看 1.1K关注 0票数 0

我有一张极光表,里面有五亿张唱片。我需要执行大数据分析,比如查找两个表之间的差异。到目前为止,我一直在使用文件系统上的HIVE来完成这项工作,但是现在我们已经将所有文件行插入到Aurora中。但仍然每月我需要做同样的事情,找到差异。

那么,对此,什么是最好的选择?

  1. 将Aurora数据作为文件导出回S3,然后对其运行单元查询(将所有Aurora行导出到S3需要多长时间)?
  2. 我可以在Aurora表上运行蜂箱查询吗?(我猜Aurora上的蜂箱不支持)
  3. 在Aurora上运行spark (性能如何)?

或者有什么更好的方法。

EN

回答 1

Stack Overflow用户

发布于 2018-10-12 19:29:01

在我看来,Aurora MySQL不是执行大数据分析的好选择。这是由于MySQL InnoDB的局限性和MySQL InnoDB对极光的附加限制所致。例如,您没有发现数据压缩或列格式等特性。

当涉及到Aurora时,您可以使用例如Aurora并行查询,但是它不支持分区表。

https://aws.amazon.com/blogs/aws/new-parallel-query-for-amazon-aurora/

其他选项是通过使用AWS Glue直接连接到Aurora并执行分析,但在本例中,数据库性能可能会出现问题。这可能是个瓶颈。

https://docs.aws.amazon.com/glue/latest/dg/populate-add-connection.html

我建议使用从s3 / SELECT到OUTFILE S3的LOAD数据导入/导出数据到S3,然后使用Glue或EMR进行分析。您还应该考虑使用Redshift而不是Aurora。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52726924

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档