我有一张极光表,里面有五亿张唱片。我需要执行大数据分析,比如查找两个表之间的差异。到目前为止,我一直在使用文件系统上的HIVE来完成这项工作,但是现在我们已经将所有文件行插入到Aurora中。但仍然每月我需要做同样的事情,找到差异。
那么,对此,什么是最好的选择?
或者有什么更好的方法。
发布于 2018-10-12 19:29:01
在我看来,Aurora MySQL不是执行大数据分析的好选择。这是由于MySQL InnoDB的局限性和MySQL InnoDB对极光的附加限制所致。例如,您没有发现数据压缩或列格式等特性。
当涉及到Aurora时,您可以使用例如Aurora并行查询,但是它不支持分区表。
https://aws.amazon.com/blogs/aws/new-parallel-query-for-amazon-aurora/
其他选项是通过使用AWS Glue直接连接到Aurora并执行分析,但在本例中,数据库性能可能会出现问题。这可能是个瓶颈。
https://docs.aws.amazon.com/glue/latest/dg/populate-add-connection.html
我建议使用从s3 / SELECT到OUTFILE S3的LOAD数据导入/导出数据到S3,然后使用Glue或EMR进行分析。您还应该考虑使用Redshift而不是Aurora。
https://stackoverflow.com/questions/52726924
复制相似问题