首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Spark优化Hive SQL查询?

使用Spark优化Hive SQL查询?
EN

Stack Overflow用户
提问于 2019-12-20 14:30:46
回答 1查看 546关注 0票数 0

我有一个复杂的SQL查询,用于在Hadoop Hive中获取数据。

我已经开始阅读关于Spark和PySpark的文章了。这些工具似乎提高了性能。换句话说,如果我必须为我的数据查询Hive,我从Spark获得的任何性能改进都只会来自我从Hive检索数据后应用于数据的转换。

我对这些技术的理解正确吗?

EN

回答 1

Stack Overflow用户

发布于 2019-12-21 11:12:29

最终,这取决于您的Hive执行引擎、文件格式和分区/bucketing。这不是简单的蜂巢vs火花。例如,使用Spark读取CSV文件所需的资源要比配置单元中经过分区、快速压缩的Parquet或ORC表所需的资源多

抛开数据格式不谈,如果Spark和Hive查询在YARN中运行,它们将占用大致相同的资源来计算数据,尽管Spark将允许您对结果集执行更多操作,因为它是以编程方式定义的

您还可以让Hive使用Spark而不是Mapreduce作为执行引擎,或者使用Tez作为另一种选择

Spark只使用Hive元存储来查找数据,因此在您使用的数据库引擎/客户端上的性能也不同(Spark、Presto和直接JDBC或Thrift)

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59420778

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档