我一直在Vora和Hive中运行一些来自以及的测试。Controller和SparkTh深层服务器都有相同的配置。
12栏
10米排桌
680兆b
Server和SAP控制器都是以-主纱线和相同数量的执行器、执行器内存和核心启动的.在Hadoop集群中的同一服务器上可以找到Controller和Thriftserver,我运行一个测试关机-- Controller/Thriftserver,然后启动另一个进行测试。
下面的所有数字都来自服务器的作业完成时间或SAP控制器的作业完成时间,我不等待结果显示在HANA或直线或火花-壳牌。
结果:
火炉-壳牌->火花放电服务器-> Hive
选择返回的列: 13s
计数返回:1.2 s
火花-壳牌->火花放电服务器-> Vora
选择列返回: 5s
计数返回值为:100 in
Hana -> Sap控制器-> Hive
选择列返回: 45s
计数返回: 4s
Hana -> Sap控制器-> Vora
选择列返回: 24s
计数返回:2.1
Beeline ->火花服务器-> Hive
选择列返回: 35s
计数返回数: 1.9s
Beeline ->火花服务器-> Vora
选择返回的列: 55s
计数返回:1.2 s
有什么重要的性能调整技巧可以帮助控制器吗?我可以以比Controller更快的速度从Hive中选择Vora这一事实是很有趣的。
发布于 2016-05-06 14:58:07
在进行了一些分区更改之后。我已经让still以更快的速度从Hive中选择数据,Vora仍然是相同的速度。似乎较少的拆分可以帮助Controller将数据从31个文件大分割到10个文件,使查询时间减少75%以上
目前的结果:
火炉-壳牌->火花放电服务器-> Hive
选择返回的列: 14s
计数返回: 1s
Hana -> Sap控制器-> Hive
选择在:10中返回的列
计数返回数: 5s
Beeline ->火花服务器-> Hive
选择返回的列: 7s
计数返回: 1.3s
伯爵似乎慢慢地回来了,但没有问题。
https://stackoverflow.com/questions/36984327
复制相似问题