文章/答案/技术大牛

发布

社区首页 >问答首页 >亚马逊Aurora RDS的大数据分析

问亚马逊Aurora RDS的大数据分析
EN

Stack Overflow用户

提问于 2018-10-09 18:04:25

回答 1查看 1.1K关注 0票数 0

我有一张极光表，里面有五亿张唱片。我需要执行大数据分析，比如查找两个表之间的差异。到目前为止，我一直在使用文件系统上的HIVE来完成这项工作，但是现在我们已经将所有文件行插入到Aurora中。但仍然每月我需要做同样的事情，找到差异。

那么，对此，什么是最好的选择？

将Aurora数据作为文件导出回S3，然后对其运行单元查询(将所有Aurora行导出到S3需要多长时间)？
我可以在Aurora表上运行蜂箱查询吗？(我猜Aurora上的蜂箱不支持)
在Aurora上运行spark (性能如何)？

或者有什么更好的方法。

apache-spark

amazon-s3

hive

amazon-aurora

回答 1

Stack Overflow用户

发布于 2018-10-12 19:29:01

在我看来，Aurora MySQL不是执行大数据分析的好选择。这是由于MySQL InnoDB的局限性和MySQL InnoDB对极光的附加限制所致。例如，您没有发现数据压缩或列格式等特性。

当涉及到Aurora时，您可以使用例如Aurora并行查询，但是它不支持分区表。

https://aws.amazon.com/blogs/aws/new-parallel-query-for-amazon-aurora/

其他选项是通过使用AWS Glue直接连接到Aurora并执行分析，但在本例中，数据库性能可能会出现问题。这可能是个瓶颈。

https://docs.aws.amazon.com/glue/latest/dg/populate-add-connection.html

我建议使用从s3 / SELECT到OUTFILE S3的LOAD数据导入/导出数据到S3，然后使用Glue或EMR进行分析。您还应该考虑使用Redshift而不是Aurora。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52726924

复制

相似问题

问亚马逊Aurora RDS的大数据分析
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问亚马逊Aurora RDS的大数据分析EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问亚马逊Aurora RDS的大数据分析
EN