首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何为多租户配置Hive Impala/Spark?

如何为多租户配置Hive Impala/Spark?
EN

Stack Overflow用户
提问于 2017-09-29 15:18:33
回答 1查看 514关注 0票数 2

试着找出答案,但当我想到以下几点时却找不到答案。

它涵盖星火,黑斑羚,先生,蜂巢多租户。与黑斑羚有关的情景。我觉得它可以应用到火花,也因为黑斑羚/火花都是占用记忆。

场景1说,我们为MR、Hive和Impala创建了一个具有多租户的10节点集群,其中40%的资源静态分配给了Impala。为了运行黑斑羚,我们创建了带有256 GB RAM数据节点的集群。

问题是基于这种配置的,我们正在失去低成本的优势,即32~40 GB的5-6个核心节点,这是MR/Hadoop在处理100 the数据时的主要卖点之一。

场景2:创建一个包含256 GB RAM和32-40 GB RAM节点的集群。

问题是,在本例中,Impala将不会运行,因为根据我的理解,我们不能直接在集群中运行Impala守护进程的特定数据节点中创建Hive表。

场景3:创建单独的集群,即没有多租户。在这种情况下,我们需要将数据从Hive复制到Impala集群。

问题是,这将成为另一个增量过程/ETL层。

类似于上面的场景,我觉得它适用于火花,因为火花也需要很大的内存来操作。

我们可以说创建一个MR、HIVE、HBASE、流式多租户集群&一个单独的Impala、Spark多租户集群吗?

EN

回答 1

Stack Overflow用户

发布于 2017-10-02 15:33:17

这是我的答案,基于我以上的评论集合。

我已经创建了一个多租户集群,其中包含基于蜂巢的表(使用混合HDFS + S3)以及spark和黑斑羚。虽然几个月以来,我还没有收到规范,但我发现黑斑羚在数百亿条记录(几十/数百TB未压缩)上的性能一般为16 gz,每一列大约有70列宽,同时处理一个或两个查询(每个gz压缩文件约1GB)。查询是聚合加上连接到较小的事实表,这些事实表也是拼花格式的。连接通常涉及一个查询中的许多其他表,从数亿条记录到数十条记录表,通常一次访问大约10-20列,一次使用数十亿条记录的一半。火花也做得很好,使用纱线和记忆不是一个大问题。数据/任务节点是17个EC2 i3.2xsize,因为它们具有良好的性能和价值(re NVMes,标价过高)。

我在评论中没有提到的一点是,您可能会超额订阅内存,以便通过充分使用集群的资源,最大限度地提高每个工具的性能。这里的自然警告--超额订阅意味着如果/当您实际尝试一次使用所有这些资源时,出现问题的风险更高(参见:航空公司超额预订)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46491999

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档