我们的用例是一个狭窄的表(15个字段),但是针对整个数据集(数十亿行)的处理很大。我想知道是什么组合提供了更好的性能:
环境: CDH5.8 / spark 2.0
发布于 2017-11-09 18:58:29
如果没有特定产品和usecase的附加上下文,我会投票支持Hive表上的SparkSql,原因有二:
发布于 2017-11-10 06:34:36
这里只有两个选择。在文件上火花,或在蜂巢上燃烧。SparkSQL对两者都有效,您应该更喜欢使用Dataset API,而不是RDD。
如果您可以自己定义Dataset模式,那么Spark读取原始HDFS文件将更快,因为您绕过了Hive Metastore的额外跳转。
几年前,当我自己做一个简单的测试时(使用Spark1.3),我注意到将100000行作为CSV文件提取比使用同一个LIMIT的SparkSQL Hive查询快几个数量级
https://stackoverflow.com/questions/47207986
复制相似问题