首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据-Hadoop、Spark

    网易Kyuubi

    网易在Spark多租户方面的工作,这个项目叫做Kyuubi(该项目的开源地址: https://github.com/netease-bigdata/kyuubi https://github.com/ yaooqinn/kyuubi),实际上是类似于HiveSever2的程序。 Kyuubi的主要特点如下: 一、具备统一接口,与HiveSever2相比,Kyuubi提供SwiftThrift的API,无论是Beeline客户端、JDBC客户端、ODBC客户端还是网易猛犸自助分析查询平台 、有数可视化BI平台,Kyuubi都可以用标准的方式连接到Spark。 具体过程为,Kyuubi将自己注册到ZK,ZK形成服务列表,注明各服务的存活状态,客户端会与ZK通讯拿到该服务器列表,从中挑选Kyuubi服务器执行。

    1.9K30发布于 2021-03-03
  • 来自专栏快乐阿超

    Apache Kyuubi

    ——加菲劳 文档: Quick Start — Apache Kyuubi GitHub: https://github.com/apache/kyuubi Apache Kyuubi 是一个分布式多租户网关 在服务器端,Kyuubi服务器和引擎的多租户架构为管理员提供了实现计算资源隔离、数据安全、高可用性、高客户端并发等的方法。 有时,将 Kyuubi 与支持丰富的可视化和仪表板的 Apache Superset 集成时,不需要 SQL 技能。 在 Kyuubi 的典型大数据生产环境中,应该有系统管理员和最终用户。 Kyuubi服务器和引擎的松耦合架构极大地提高了服务本身的客户端并发性和服务稳定性。 DataLake/Lakehouse 支持 Kyuubi 的愿景是统一门户并成为易于使用的数据湖管理平台。 通过 Kyuubi DataLake 元数据 API 支持逻辑视图 多目录支持 DataLake 的 SQL 标准授权支持(即将推出) 云原生支持 Kyuubi 可以将其引擎部署在不同类型的集群管理器上

    47310编辑于 2024-10-27
  • 来自专栏大数据基础架构

    Kyuubi集成spark场景

    ${zkserver}:${zkport} 见 kyuubi-defaults.conf 的 kyuubi.ha.zookeeper.quorum 配置。 闲置时间参数kyuubi.session.engine.idle.timeout默认PT30M (30 min)服务端设置在kyuubi-defaults.conf中设置kyuubi.session.engine.idle.timeout 例如kyuubi.engine.share.level=USER,同一个用户通过业务隔离引擎,在JdbcUrl中设置kyuubi.engine.share.level.subdomain,示例如下:kyuubi-beeline ;kyuubi引擎设置$KYUUBI_HOME/conf/kyuubi-defaults.conf,其中kyuubi设置可以覆盖spark设置。 引擎设置$KYUUBI_HOME/conf/kyuubi-defaults.conf,其中kyuubi设置可以覆盖spark设置。

    2.9K50编辑于 2023-01-29
  • 来自专栏飞总聊IT

    聊聊DatabricksSQL和Apache Kyuubi

    新粉请关注我的公众号 昨天写了一篇文章Apache Kyuubi:一个有趣的大数据开源项目,介绍了网易开源的Apache Kyuubi,是如何把Spark变成为一个数仓的。 这事情出来我就写过文章了:刺刀见血,Databricks说Snowflake为了测试结果好看改了TPC-DS的输入数据 而Apache Kyuubi用的是开源的Spark。 这一听就高大上多了,比Kyuubi的简单的JDBC/ODBC Thrift Server牛逼太多了。 这篇文章里我不想深入去分析Databricks SQL。有很多原因。 但是Databricks SQL和Apache Kyuubi最大的不同就是前者你交钱给Databricks。Databricks也没兴趣开源。 而Apache Kyuubi就简单了,你当年HIVE怎么用,现在还是可以怎么用。当然,也没反对你基于云端的存储和Spark on K8S搭个更现代化的数仓。

    90840编辑于 2022-05-05
  • 来自专栏大数据-BigData

    Kyuubi高可用架构

    在 HA 模式下运行 Kyuubi 是在 Kyuubi 上使用支持 SQL 查询服务的计算机或容器组,这些服务可以在最少的停机时间内可靠地使用。 使用 HA,这种情况将通过自动检测硬件/软件故障得到补救,并且另一个 Kyuubi 服务实例将立即准备好服务,而无需人工干预。 高可用架构 目前,Kyuubi 支持负载均衡,使整个系统高可用。 主要优势 高并发 通过添加或删除 Kyuubi 服务器实例可以轻松地扩展或缩减以满足客户端请求的需要。 平滑升级 Kyuubi 服务器支持优雅停止。 我们可以删除一个 k.i. =zooKeeper; 并设置 zooKeeperNamespace=kyuubi;,则可以从 /kyuubi 路径中指定的 ZooKeeper 地址中随机选择一个 Kyuubi 服务 uri。 原文链接:https://lrting.top/backend/bigdata/kyuubi/kyuubi-basic/4429/

    1.8K30编辑于 2022-04-14
  • 来自专栏腾源会

    活动推荐|Apache SeaTunnel & Kyuubi 联合 Meetup

    SeaTunnel 和 Apache Kyuubi 两大新锐社区携手,精心筹备,为企业大数据开发者、开源技术爱好者带来一场技术盛宴。 王斐 软件工程师 eBay 软件工程师,Apache Kyuubi PPMC Member 演讲主题:Apache Kyuubi 在 eBay 的实践 演讲概要: Apache Kyuubi 的基本架构和使用场景 , 以及在 eBay 的实践 - 基于 Apache Kyuubi 构建 Unified & Serverless Spark Gateway。 演讲主题:T3 出行 Apache Kyuubi FlinkSQLEngine 设计和相关实践 演讲概要: 杨华:T3 出行在Apache Kyuubi 集成FlinkEngine 做出的优化和应用。 李心恺:DSS 一站式开发平台集成Apache Kyuubi 作为 SQL任务计算中间件的相关实践 Apache SeaTunnel  & Apache Kyuubi 2022 联合 Meetup,见证中国大数据崛起

    78110编辑于 2022-03-14
  • 来自专栏大数据实战演练

    干货 | Ambari 集成 Kyuubi 时的配置渲染逻辑

    以集成 Kyuubi 为例: 需求如下: Ambari 在集成 Kyuubi 时,如何实现点击开关量配置则实现 kyuubi.ha.client.class = org.apache.kyuubi.ha.client.zookeeper.ZookeeperDiscoveryClient kyuubi-defaults']['kyuubi.ha.enabled'] if kyuubi_ha_enabled: kyuubi_ha_client_class = "org.apache.kyuubi.ha.client.zookeeper.ZookeeperDiscoveryClient 在 KYUUBI/package 目录下,创建 templates 目录,用来放置 .j2 模板文件,比如名叫 kyuubi-defaults.conf.j2。 kyuubi.ha.client.class = {{ kyuubi_ha_client_class }} ...省略其余配置 然后在服务生命周期 .py 文件,添加 j2 文件渲染逻辑,即:将 kyuubi-defaults.conf.j2 内容渲染到 kyuubi-defaults.conf 中: File(format("{kyuubi_conf_dir}/kyuubi-defaults.conf"), owner=params.kyuubi_user

    42510编辑于 2024-03-12
  • 来自专栏穆如清风

    Apache Kyuubi & Celeborn (Incubating) 助力 Spark 拥抱云原生

    我们使用 Apache Kyuubi 作为统一的 Spark 任务提交网关,Kyuubi 提供多种用户接口,也支持多种类型的 Spark 任务。 特别地,在拉取结果集时,结果集会以微批的形式从 Spark Driver 经过 Kyuubi Server 返回给客户端,这有效地降低 Kyuubi Server 的内存压力,保障了 Kyuubi Server Kyuubi 以 StatefulSet 的形式部署在 K8s 集群中3. Kyuubi 使用 MySQL 存储状态数据 4. Spark 作业以 Cluster 模式运行 5. 现场问答Q:我们已经在 K8s 上部署了 Kyuubi 用于往 K8s 上提交 Spark 任务,下一步我们打算使用 Kyuubi 也往 YARN 提交 Spark 和 Flink 任务。 请问在这种场景中,是推荐为每种负载单独部署一套 Kyuubi 服务,还是使用同一套 Kyuubi 服务呢?

    1.5K40编辑于 2023-10-12
  • 来自专栏Hadoop实操

    0644-5.16.1-如何在CDH5中使用Spark2.4 Thrift

    测试环境: 1.Redhat7.4 2.CDH5.16.1 3.集群未启用Kerberos 4.Spark2.4.0.cloudera2-1 2 Kyuubi介绍 Kyuubi是Apache Spark Kyuubi是一个可以保证端到端多租户的Spark Thrift服务。 3 在CDH5中使用Kyuubi 1.确认目前CDH的环境 ? 2.确认Spark2的版本 ? 3.到Kyuubi下载已经编译好的最新的包。 ? 地址: https://github.com/yaooqinn/kyuubi/releases ? 4.启动kyuubi服务。 4 其他问题 1.首次运行Kyuubi服务启动失败。 WARNING: Running kyuubi-daemon.sh from user-defined location.

    3.8K30发布于 2019-05-31
  • 来自专栏飞总聊IT

    Apache Kyuubi:一个有趣的大数据开源项目

    最近看到了Apache Kyuubi这个项目,应该严格的说是Apache Kyuubi(incubating)。项目还在孵化器中,并没有升级成为Apache的正式项目。 Kyuubi是一个什么项目呢? We are aiming to make Kyuubi an "out-of-the-box"tool for data warehouses and data lakes. Kyuubi做的事情很简单,就是搭了一个多租户的JDBC/ODBC Thrift server,这个server的通讯方式和HIVE Server 2兼容。 理论上讲,把HIVE的整个数据仓库迁移到Kyuubi上很简单,只需要把HIVE Server 2换成Kyuubi,把后面换成Spark的cluter,然后再把查询语言换成Spark SQL就行了。

    1.4K10编辑于 2022-05-05
  • 来自专栏深度学习与python

    Apache Kyuubi(Incubating):网易对Serverless Spark的探索与实践

    燕青(Kent Yao)分享了 Apache Kyuubi 孵化器项目(注:下文中出现的 Apache Kyuubi/Kyuubi 等缩写均指代 Apache Kyuubi 孵化器项目)以及 Serverless 1Kyuubi 研发目的与架构设计 首先简单认识一下 Kyuubi 项目。 Kyuubi 从软件架构上分为 5 个层次,从上至下依次为客户端层、Server Space 层、Kyuubi Server 层、Engine Space 层和 Engine 层。 2网易如何基于 Kyuubi 实现 Serverless Spark 在网易我们通过 Kyuubi 来实现 Serverless Spark,我们尝试将它抽象成两块内容:一个是提供服务的平台以及 Kyuubi 第二个是我们会为 Kyuubi 引入一个基于历史的优化器,对于在 Kyuubi 之上周期性的任务,根据它的历史对它的 SQL 或者是资源使用做进一步的优化。

    88710编辑于 2023-04-01
  • 来自专栏深度学习与python

    Apache Kyuubi PPMC 燕青:为什么说这是开源最好的时代?

    在这个基础上,我们意识到我们对于 Kyuubi 原本的构想是不太可持续的,Kyuubi 的第一代架构视野比较小,应用场景也很少。因此,我们觉得是时候对 Kyuubi 的架构进行一番革新了。” Kyuubi 高度兼容 HiveServer2 接口及行为,支持无缝迁移; Kyuubi 分层架构,消除客户端兼容性问题,支持无感升级; Kyuubi 支持 Spark SQL 全链路优化及再增强,性能卓著 当前,Kyuubi 不仅在网易内部承接了大量工作,在业内也有多家大型公司采用 Kyuubi 解决问题。 在 Kyuubi 项目官宣进入 Apache 孵化器的那天,Kyuubi 特别感谢了很多给予过自己帮助的人,比如给 Kyuubi 提供指导的 Champion 和 Mentors 姜宁,Mentors 具体来说,第一要增强 Kyuubi 对 Kubernetes 云原生的支持,让 Kyuubi 提供的服务以及计算资源都可以在容器中进行;第二要增强 Kyuubi 对数据湖的支持,让用户能够更简单地管理、

    67331编辑于 2023-04-01
  • 来自专栏大数据-BigData

    Apache Kyuubi + Hudi在 T3 出行的深度实践

    T3出行选择了基于网易数帆主导开源的 Apache Kyuubi(以下简称Kyuubi)来搭建这样的能力。 在2021 中国开源年会(COSCon’21)上,T3出行高级大数据工程师李心恺详细解读了选择 Kyuubi 的原因,以及基于 Kyuubi 的深度实践和实现的价值。 对比 Apache Kyuubi 和 Hive、STS,我们发现,Kyuubi 在租户控制,任务资源隔离,引擎升级对接,性能等方面拥有诸多优势。详情见下图。 image.png Apache Kyuubi在T3出行场景 AD-HOC场景 Hue 整合 Kyuubi,替代 Hive 为分析师和大数据开发提供服务。 T3出行对 Kyuubi 的改进与优化 我们对 Kyuubi 的改进和优化主要包括如下几个方面: Kyuubi Web:启动一个独立多 web 服务,监控管理 Kyuubi Server。

    1.9K60编辑于 2022-05-26
  • 来自专栏大数据-BigData

    带你从零配置 Kyuubi 查询 Doris

    Kyuubi 在1.6.0版本实现了JDBC引擎,首先实现了Apache Doris的方言,提供了查询 Doris 的能力。本文将介绍如何从零开始配置通过 Kyuubi 查询 Doris。 01 配置Kyuubi 1.2 TPCDS 数据集 1.1 下载Kyuubi安装包 从Kyuubi官网下载1.6.0的安装包后解压。 https://www.apache.org/dyn/closer.lua/incubator/kyuubi/kyuubi-1.6.0-incubating/apache-kyuubi-1.6.0-incubating-bin.tgz 1.2 修改配置文件 cd $KYUUBI_HOME/confvi kyuubi-defaults.conf 在 kyuubi-defaults.conf 中追加如下配置: kyuubi.engine.jdbc.connection.url /engines/jdbc目录 1.4 启动kyuubi服务 $KYUUBI_HOME/bin/kyuubi run 02 Demo 演示 1.2 TPCDS 数据集 接下来我们将使用 doris

    2K20编辑于 2022-10-28
  • 来自专栏大数据从业者

    大数据统一SQL网关:最新版Kyuubi整合Flink、Spark方案的实践案例总结

    前言 Kyuubi最新版本已经发布,本文主要介绍基于Kyuubi SQL网关整合多计算引擎Flink和Spark实践案例总结。 kyuubi1.9.0 kyuubi.engine.type SPARK_SQL kyuubi.frontend.rest.bind.port 10099 kyuubi.engine.share.level 启动Kyuubi Server [root@felixzh apache-kyuubi-1.9.0-bin]# . /bin/kyuubi start 浏览器访问:http://felixzh:10099/,即可看到Kyuubi Web UI,如下: Kyuubi on Spark kyuubi.engine.type 通过Kyuubi Web UI可以看到对应的Session信息,如下: 通过Kyuubi Web UI可以看到对应的Operation信息,如下: 通过Kyuubi Web UI可以看到对应的Engine

    1.8K10编辑于 2024-07-02
  • 来自专栏大数据从业者

    最新版本Kyuubi1.9.1 WebUI企业生产场景Basic LDAP安全认证实践案例总结

    Kyuubi LDAP认证 说明:如果没有或者不了解LDAP,参考下一章节的LDAP入门实践! 至于Kyuubi源码编译和安装部署,之前文章已经详细记录,本文不再重复赘述。 根据本人的实践验证,Kyuubi WebUI开启Basic LDAP安全认证,需要修改kyuubi-default.conf,相关内容如下: [root@felixzh apache-kyuubi-1.9.1 -bin]# vim conf/kyuubi-defaults.conf kyuubi.authentication LDAP kyuubi.authentication.ldap.url ldap:/ 可以remote debug相应源码排查: kyuubi\kyuubi-common\src\main\scala\org\apache\kyuubi\service\authentication\ldap 至于更精细的库、表、列权限管理可以基于Ranger和Kyuubi插件kyuubi-spark-authz配合完成。

    1.1K10编辑于 2024-07-02
  • 来自专栏数据仓库践行者

    Atlas自动感知hivesql及sparksql血缘实践

    安装 官网:https://kyuubi.readthedocs.io/en/master/quick_start/index.html kyuubi我们主要用kyuubi-spark-lineage, sparksql血缘解析模块 获取源码 我这边是从git 拉代码 https://gitcode.net/kyuubi/kyuubi 到idea,切换到1.8 branch 编译 Cd /xx/kyuubi /extensions/spark/kyuubi-spark-lineage mvn clean package -pl :kyuubi-spark-lineage_2.12 -am -DskipTests 编译成功后,jar在/xx/kyuubi/extensions/spark/kyuubi-spark-lineage/target下 kyuubi-spark-lineage_2.12-1.8.1- 拷贝kyuubi-spark-lineage jar包到spark的jars目录下 cp kyuubi-spark-lineage_2.12-1.8.1-SNAPSHOT.jar $SPARK_HOME

    1.9K31编辑于 2023-11-07
  • 来自专栏携程技术

    干货 | 携程数据基础平台2.0建设,多机房架构下的演进

    6.1.1 Spark3平滑升级 1)使用 Kyuubi plan only mode 重放线上 SQL,分类语法不兼容的类型 Kyuubi Spark Engine 设置 kyuubi.operation.plan.only.mode Server 层和 Engine 层都有一个服务发现层,Kyuubi Server 层的服务发现层用于随机选择一个 Kyuubi Server,Kyuubi Server 对于所有用户来共享的。 Kyuubi Engine 层的服务发现层对用户来说是不可见的。 它是用于 Kyuubi Server 去选择对应的用户的 Spark Engine,当一条用户的请求进来之后,它会随机选择一个 Kyuubi Server,Kyuubi Server 会去 Engine 所以说 Kyuubi Server 是所有用户共享,Kyuubi Engine 是用户之间资源隔离。

    96610编辑于 2024-05-31
  • 来自专栏大数据解决方案

    如何避免Spark SQL做数据导入时产生大量小文件

    (网易有数大数据平台 - 运行状态) 从各组的实验结果来看 bin/hadoop fs -count /user/kyuubi/hive_db/tpcds_1t_parquet.db/store_sales / 1825 1863 192985051585 /user/kyuubi/hive_db/tpcds_1t_parquet.db/store_sales bin/hadoop fs -du -h /user/kyuubi/hive_db/tpcds_1t_parquet.db/store_sales/ss_sold_date_sk=__HIVE_DEFAULT_PARTITION __ 183.1 M /user/kyuubi/hive_db/tpcds_1t_parquet.db/store_sales/ss_sold_date_sk=__HIVE_DEFAULT_PARTITION 他也是Kyuubi项目和spark-authorizer项目的发起人,后者通过Apache Ranger解决Apache Spark的安全问题。

    4.4K10发布于 2021-03-24
  • 来自专栏chaplinthink的专栏

    [离线计算-Spark|Hive] 数据近实时同步数仓方案设计

    Spark对Hudi数据集的读写,Hudi中最重要的一个相关类为 DefaultSource,其实现了 CreatableRelationProvider#createRelation接口,并实现了读写逻辑 kyuubi 使用网易开源的kyuubi kyuubi架构图: 支持HiveServer2 Thrift API协议,可以通过beeline 连接 hive: beeline -u jdbc:hive2://ip: 10000 -n userName -p kyuubi: beeline -u jdbc:hive2://ip:8333 -n userName -p hudi 元数据使用hive metastore spark来识别加载hudi表 实现hudi表与hive表关联查询 kyuubi 支持SparkContext的动态缓存,让用户不需要每次查询都动态创建SparkContext。 针对hudi 表的查询,引入kyuubi 框架,除 了增强平台 spark sql作为即席查询服务的能力外,同时支持查询hudi表,并可以实现hudi表与hive表的联合查询, 同时对原有hive相关服务没有太大影响

    1.2K40编辑于 2022-04-27
领券