文章/答案/技术大牛

发布

社区首页 >问答首页 >如何为多租户配置Hive Impala/Spark？

问如何为多租户配置Hive Impala/Spark？
EN

Stack Overflow用户

提问于 2017-09-29 15:18:33

回答 1查看 514关注 0票数 2

试着找出答案，但当我想到以下几点时却找不到答案。

它涵盖星火，黑斑羚，先生，蜂巢多租户。与黑斑羚有关的情景。我觉得它可以应用到火花，也因为黑斑羚/火花都是占用记忆。

场景1说，我们为MR、Hive和Impala创建了一个具有多租户的10节点集群，其中40%的资源静态分配给了Impala。为了运行黑斑羚，我们创建了带有256 GB RAM数据节点的集群。

问题是基于这种配置的，我们正在失去低成本的优势，即32~40 GB的5-6个核心节点，这是MR/Hadoop在处理100 the数据时的主要卖点之一。

场景2：创建一个包含256 GB RAM和32-40 GB RAM节点的集群。

问题是，在本例中，Impala将不会运行，因为根据我的理解，我们不能直接在集群中运行Impala守护进程的特定数据节点中创建Hive表。

场景3：创建单独的集群，即没有多租户。在这种情况下，我们需要将数据从Hive复制到Impala集群。

问题是，这将成为另一个增量过程/ETL层。

类似于上面的场景，我觉得它适用于火花，因为火花也需要很大的内存来操作。

我们可以说创建一个MR、HIVE、HBASE、流式多租户集群&一个单独的Impala、Spark多租户集群吗？

hadoop

apache-spark

hive

impala

回答 1

Stack Overflow用户

发布于 2017-10-02 15:33:17

这是我的答案，基于我以上的评论集合。

我已经创建了一个多租户集群，其中包含基于蜂巢的表(使用混合HDFS + S3)以及spark和黑斑羚。虽然几个月以来，我还没有收到规范，但我发现黑斑羚在数百亿条记录(几十/数百TB未压缩)上的性能一般为16 gz，每一列大约有70列宽，同时处理一个或两个查询(每个gz压缩文件约1GB)。查询是聚合加上连接到较小的事实表，这些事实表也是拼花格式的。连接通常涉及一个查询中的许多其他表，从数亿条记录到数十条记录表，通常一次访问大约10-20列，一次使用数十亿条记录的一半。火花也做得很好，使用纱线和记忆不是一个大问题。数据/任务节点是17个EC2 i3.2xsize，因为它们具有良好的性能和价值(re NVMes，标价过高)。

我在评论中没有提到的一点是，您可能会超额订阅内存，以便通过充分使用集群的资源，最大限度地提高每个工具的性能。这里的自然警告--超额订阅意味着如果/当您实际尝试一次使用所有这些资源时，出现问题的风险更高(参见:航空公司超额预订)。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46491999

复制

相似问题

问如何为多租户配置Hive Impala/Spark？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何为多租户配置Hive Impala/Spark？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何为多租户配置Hive Impala/Spark？
EN