首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏牛肉圆粉不加葱

    Livy Session 详解(上)

    本文基于 incubator-livy 0.4.0-incubating 从Livy Rest Api的介绍中我们可以知道,livy 共有两种 job,分别是 session 和 batch。 在之后关于 livy 的所有文章中,session 或 batch 对应 rest api 中的含义,InteractivateSession 和 BatchSession 及 Session 都对应代码中的含义 create session-livy client side.png 一图胜千言,上图就是创建一个 session 在 client 端的主要流程,我们将以注释的方式来说明那些没那么重要或复杂的流程, 可以看到,session 对应的 spark app 的 mainClass 为 org.apache.livy.rsc.driver.RSCDriverBootstrapper 2.3:等待 SparkSubmit 初始化过程汇总,比较关键的步骤是将 session 信息存储到 state store 中以便livy server 挂掉后能进行 recovery;再就是向 driver 发送一个空的 PingJob

    2.8K40发布于 2018-08-24
  • 来自专栏牛肉圆粉不加葱

    Livy Session 详解(下)

    即上图中的第 9 步中的 executeCodeFunc,用来真正运行代码片段的函数,流程如下

    90630发布于 2018-08-24
  • 来自专栏牛肉圆粉不加葱

    Livy Session 详解(中)

    本文基于 incubator-livy 0.4.0-incubating Livy Session 详解(上) - 简书 一文主要介绍了 session 整体的启动流程并详细分析了 client 端(livy server 端)是如何启动 driver 以及建立连接的。 注:如果对 livy 的整体架构以及 session client 端不了解,请先阅读以下两篇相关文章: Apache Livy 实现思路及模块概述 - 简书 Livy Session 详解(上) - : Livy is an open source REST interface for interacting with Apache Spark from anywhere)相关的请求。 主要是因为目前 livy 中的一个 Session 仅包含一个 interpreter,如果一个 interpreter 同时执行多段代码片段,很容易会出现穿插执行的错误。

    1.9K40发布于 2018-08-24
  • 来自专栏CSDN技术头条

    Livy:基于Apache Spark的REST服务

    Livy所提供的基本功能可以看到Livy涵盖了原生Spark所提供的两种处理交互方式。 多用户支持 假定用户tom向Livy服务端发起REST请求启动一个新的会话,而Livy服务端则是由用户livy启动的,这个时候所创建出来Spark集群用户是谁呢,会是用户tom还是livyLivy采用了基于SASL认证的RPC通信机制:当Livy服务端启动Spark集群时会产生一个随机字符串用作两者之间认证的秘钥,只有Livy服务端和该Spark集群之间才有相同的秘钥,这样就保证了只有Livy 图3 Livy端到端安全机制 这样构成了Livy完整的端到端的安全机制,确保没有经过认证的用户,匿名的连接无法与Livy服务中的任何一个环节进行通信。 失败恢复 由于Livy服务端是单点,所有的操作都需要通过Livy转发到Spark集群中,如何确保Livy服务端失效的时候已创建的所有会话不受影响,同时Livy服务端恢复过来后能够与已有的会话重新连接以继续使用

    4.4K80发布于 2018-02-13
  • 来自专栏大数据技术博文

    Spark实战系列4:Spark周边项目Livy简介

    ( 目前在ASF孵化中) 2 Livy概述 Livy 是 Apache Spark的 一个REST服务,Livy可以在任意平台上提交Spark作业 Livy可以在WEB/Mobile中提交(不需要Spark 在运 行多个Livy服务器的时候不会导致机器过载 5 配置Livy Livy在配置 目录下使 用 一些配置 文件,默认情况下是Livy安装下的conf目录。 LIVY_CONF_DIR 在启动Livy时,可以通过设置环境变量来提供备 用配置 目录。Livy使 用的配置 文件是: livy.conf:包含服务器配置。 这些选项将被限制为其默认值或Livy使 用的Spark配置中设置的值。 log4j.properties:Livy 日志记录的配置。定义 日志级别以及写 入 日志消息的位置。 一旦Livy服务器正在运 行,您可以通过端 口8998连接到它(这可以通过livy.server.port 配置选项进 行更改)

    1.9K10编辑于 2022-04-18
  • 来自专栏牛肉圆粉不加葱

    Apache Livy 实现思路及模块概述

    本文基于 incubator-livy 0.4.0-incubating 关于Apache Livy(下文简称 livy)是什么以及有什么用,请移步:Livy:基于Apache Spark的REST 服务 一、实现思路 在知道 livy 的作用及特点后,我们尝试着分析一个用户的任务是怎么通过 livy 运行起来的。 这需要对最原始的任务按照 livy 的接口进行简单的封装,然后通过 http 的方式发送给 livy server 第二步:livy server 端要能够接收用户的请求,并且要能根据这是一个对 session 、获取运行结果、共享 SparkContext 以及被正常停止等能力 第六步:一个 livy server 管理着众多 sessions、batches,需要维护大量相关信息并且在 livy server livy 模块概述.png 2.1、Client Client 并不算 livy 的模块,也很简单,在此略过 2.2、router 我们知道,livy server 提供的 api 是 rest api

    2.1K50发布于 2018-08-24
  • 来自专栏Hadoop实操

    如何打包Livy和Zeppelin的Parcel包

    1.文档编写目的 ---- Fayson在前面文章《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装 》、《如何在Kerberos环境的CDH集群部署Livy》、《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》及《如何通过Livy的RESTful API接口向 测试环境 1.CM5.15.0和CDH版本5.14.2 2.Livy0.5.0 2.环境准备 ---- 在进行Livy的Parcel包生成前,我们需要准备打包Parcel脚本的运行环境,确保有公网环境, 因为编译Livy时需要下载依赖包。 /livy_zeppelin_cdh_csd_parcels 接下来我们就利用上面的脚本来打包Livy和Zeppelin的Parcel,生成Livy和Zeppelin的Parcel包步骤: 下载Livy

    2.8K30发布于 2018-09-29
  • 来自专栏nummy

    使用 Livy Rest API 提交 spark 批量任务 (jar,Python, streaming)

    Livy是一个开源的REST 接口,用于与Spark进行交互,它同时支持提交执行代码段和完整的程序。 ? image.png Livy封装了spark-submit并支持远端执行。 启动服务器 执行以下命令,启动livy服务器。 ./bin/livy-server 这里假设spark使用yarn模式,所以所有文件路径都默认位于HDFS中。 如果是本地开发模式的话,直接使用本地文件即可(注意必须配置livy.conf文件,设置livy.file.local-dir-whitelist = directory,以允许文件添加到session)

    3.5K30发布于 2018-08-27
  • 来自专栏Hadoop实操

    如何在Kerberos环境的CDH集群部署Livy

    内容概述 1.部署Livy服务 2.修改Livy及Hadoop配置 3.Livy服务启停 4.总结 测试环境 1.CM和CDH版本为5.14.0 2.Livy版本为0.4 前置条件 1.集群已启用Kerberos 2.部署Livy ---- 1.将编译好的Livy包上传至CDH集群的节点 [root@ip-172-31-30-69 cloudera]# scp livy.tar.gz ip-172-31-21- -83 conf]# chown livy:hadoop livy.conf livy-env.sh spark-blacklist.conf (可左右滑动) [ypbeyndkm2.jpeg] 3.Livy =/var/log/livy export LIVY_PID_DIR=/var/run/livy export LIVY_SERVER_JAVA_OPTS="-Xmx2g" (可左右滑动) [n1eldwdfly.jpeg 5.Livy服务启停 ---- 1.启动Livy服务 [root@ip-172-31-21-83 ~]# sudo -u livy /opt/cloudera/livy/bin/livy-server

    4K40发布于 2018-03-29
  • 来自专栏Hadoop实操

    0867-7.1.6-Hue中Spark Notebook与Livy集成问

    1.文档编写目的 本篇文章主要介绍如何使用解决CDP7.1.6的Hue中的Spark Notebook与Livy无法进行集成的问题。 的配置 在Livy的配置页面搜索livy_spnego_enabled,关闭Livy的HTTP Kerberos 3.启用Livy的用户模拟功能 在Livy的配置页面搜索livy.impersonation.enabled =c1.liuhao.com livy_server_port=8998 livy_server_session_kind=yarn sql_server_host=c1.liuhao.com #sql_server_port name=PySpark interface=livy [[[r]]] name=R interface=livy 再去让Livy模拟用户,这样就会导致一个问题, Livy只会认为你是Hue用户,而又要让Hue用户去模拟其他的用户,最终提示模拟不了的问题,所以要关闭Livy的HTTP Kerberos认证。

    1.2K20编辑于 2021-12-07
  • 来自专栏Hadoop实操

    Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs

    因为这些原因,所以我们把Livy项目加入到了Cloudera Labs中,跟其他的实验室项目一样,Livy只能用于开发和测试目的,而不建议用于生产环境,目前Cloudera也不会提供支持。 /bin/livy-server 通过上面的配置你可以看到,Livy在默认情况下使用了SPARK_HOME下的Spark配置。 Livy在自己的conf目录下还有一些自己的配置文件。 ,但Livy社区欢迎更多的贡献者,如下: https://github.com/cloudera/livy/wiki/Contributing-to-Livy 我们鼓励你尝试一下,并欢迎将任何反馈提交到 /s/SMfB-3wQBSqK7Nhv2KooWA Fayson在接下来会对Livy的安装使用进行实操,欢迎持续关注: Livy编译,包括与CDH的集成 Livy在非Kerberos的CDH集群下的使用

    2.7K80发布于 2018-03-29
  • 来自专栏Hadoop实操

    如何编译Livy并在非Kerberos环境的CDH集群中安装

    内容概述 1.编译环境准备 2.Livy配置及配置Livy用户模拟 3.Livy服务启动 测试环境 1.CM和CDH版本为5.14.0 2.Livy版本为0.4 前置条件 1.集群未启用Kerberos ] 以上我们就准备好了livy的编译环境,接下来就开始编译livy源码 3.MAVN编译Livy ---- 1.进入git clone下来的livy目录 [ec2-user@ip-172-31-30-69 创建livy用户、log目录并将livy的home目录属主修改为livy:hadoop [root@ip-172-31-7-172 livy]# useradd livy -g hadoop [root -172-31-7-172 livy]# chown livy:hadoop /var/log/livy [root@ip-172-31-7-172 livy]# chown livy:hadoop / 6.Livy服务启停 ---- 1.启动Livy服务 [root@ip-172-31-7-172 ~]# sudo -u livy /opt/cloudera/livy/bin/livy-server

    2.5K60发布于 2018-03-29
  • 来自专栏Hadoop实操

    如何在CM中使用Parcel包部署Livy及验证

    中使用Livy的Parcel包部署服务及验证。 p /var/www/html/livy0.5.0 [root@cdh05 ~]# mv /data/disk1/livy_zeppelin_cdh_csd_parcels/LIVY-0.5.0_build /LIVY-0.5.0.jar . 在服务安装界面选择Livy服务 ? 4.点击“继续”,选择Livy依赖的服务 ? 5.点击“继续”,进行Livy服务角色分配 ? 6.点击“继续”,修改Livy服务的数据目录 ? 8.点击“继续”,完成Livy服务部署 ? Livy服务启动成功 ?

    3.4K40发布于 2018-09-29
  • 来自专栏Hadoop实操

    如何在Hue中添加Spark Notebook

    在前面Fayson也介绍了《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何通过Livy 的RESTful API接口向非Kerberos环境的CDH集群提交作业》、《如何在Kerberos环境的CDH集群部署Livy》、《如何通过Livy的RESTful API接口向Kerberos环境的 CDH集群提交作业》、《如何打包Livy和Zeppelin的Parcel包》和《如何在CM中使用Parcel包部署Livy及验证》,本篇文章Fayson主要介绍如何在Hue中添加Notebook组件并集成 livy_server_port=8998 livy_server_session_kind=yarn [notebook] show_notebooks=true enable_external_statements 2.创建Spark Notebook则需要依赖Livy服务,需要在集群中部署Livy服务并在Hue中配置Livy环境。

    8.8K30发布于 2018-11-16
  • 来自专栏实时流式计算

    开源数据质量解决方案——Apache Griffin入门宝典

    Livy是一个Spark的Rest服务器。 https://livy.apache.org/ 准备livy安装包。 将livy安装包解压到/opt/目录下 创建livy用户、log目录并将livy的home目录属主修改为livy:hadoop useradd livy -g hadoopmkdir /var/log/ 配置文件 livy.conf、livy-env.sh、spark-blacklist.conf 4.修改配置文件livy.conf,添加如下内容 livy.spark.master = yarn livy.spark.deployMode livy:supergroup /user/livy 9、启动livy服务 livy-server start elasticsearch5安装,安装包也已下载在资料包中。 更新livy/conf下的livy.conf配置文件: livy.server.host = 127.0.0.1livy.spark.master = yarnlivy.spark.deployMode

    4K40编辑于 2022-09-19
  • 来自专栏Hadoop实操

    如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业

    Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《Livy ,基于Apache Spark的开源REST服务,加入Cloudera Labs》和《如何编译Livy并在非Kerberos环境的CDH集群中安装》,Livy提供了两种类型的API(编程API和RESTful API接口),本篇文章主要介绍如何使用java代码调用Livy提供的RESTful API接口向非Kerberos环境的CDH集群提交Spark作业操作。 内容概述 1.开发环境准备 2.Livy调用示例代码 3.示例代码运行及验证 测试环境 1.CM和CDH版本为5.13.1 2.Livy版本为0.4 前置条件 1.集群未启用Kerberos 2.环境准备及描述 2.使用Maven创建Livy示例工程 [6rpympw3ea.jpeg] 3.在pom文件中添加如下依赖 <dependency> <groupId>org.apache.httpcomponents

    2.7K70发布于 2018-03-29
  • 来自专栏Hadoop实操

    0828-7.1.4-如何在CDP中通过Livy Thrift Server来提交Spark SQL作业

    本文主要介绍如何在CDP中通过Livy Thrift Server来提交Spark SQL作业。 测试环境: 1.Redhat7.7 2.采用root用户操作 3.CM为7.1.4,CDP为7.1.4 2.操作步骤 2.1 安装并启用Livy服务 1.从CM界面点击添加服务,选择Livy服务进行添加 3.点击继续,选择Livy Server部署的节点 ? 4.点击继续,等待服务添加 ? 5.点击继续,安装完成 ? ? 6.从CM进入Livy服务,在配置中搜索thrift,勾选Enable Livy Thrift Server选项。 ? 2.Livy通过HWC connector来进行管理表的访问。需要配置好相关环境和hwc的jar包。

    4.4K40发布于 2021-01-26
  • 来自专栏Hadoop实操

    如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业

    Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《Livy ,基于Apache Spark的开源REST服务,加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何通过Livy的RESTful API接口向非Kerberos 环境的CDH集群提交作业》和《如何在Kerberos环境的CDH集群部署Livy》。 本篇文章主要介绍如何使用java代码调用Livy提供的RESTful API接口向Kerberos环境的CDH集群提交Spark作业操作。 内容概述 1.开发环境准备 2.Livy调用示例代码 3.示例代码运行及验证 测试环境 1.CM和CDH版本为5.13.1 2.Livy版本为0.4 前置条件 1.集群未启用Kerberos 2.环境准备及描述

    4.4K120发布于 2018-03-30
  • 来自专栏大数据实战演练

    如何在HUE上使用Spark Notebook

    二、修改Spark配置 打开ambari页面,集群安装的是Spark2服务,所以进入Spark2配置;配置选项中选择高级livy2-conf,如下图所示: ? 将livy.server.csrf_protection.enabled的值修改为false。保存修改后的配置并重启Spark2服务。 同时在会话左侧也会出现一个圆圈,表示正在初始化一个livy session会话,如下图所示: ? 当圆圈消失,出现执行按钮时,我们就可以执行代码了。 Spark livy session空闲过期时间默认为1小时,可在spark2-conf.xml内修改livy.server.session.timeout值。 用完之后,记得及时关闭Spark livy session。

    4.5K31发布于 2019-03-12
  • 来自专栏腾讯大数据的专栏

    智能计算时代 | SuperSQL基于监督学习模型的自适应计算提效能力

    SuperSQL当前支持的分布式计算引擎,包括 Livy(底层对接Spark3)【1】、Hive (MapReduce)和Presto。 SuperSQL用户可以通过下面的SET命令,来手动设置执行跨源查询时所使用的计算引擎: // 支持 livy、presto和hive 三种引擎类型 // 默认为特殊值“auto”(不可通过参数设置), 没有引入计算提效优化之前,SuperSQL默认的跨源计算引擎是Livy(Spark3),而单源SQL则是TDW Hive(THive)中的Spark 2.x。 2.Thive + Hive SQL:如果用户SQL同时访问了THive和社区Hive库表,或者只访问了社区Hive库表,提交Livy + Spark3重试。 联系方式:yikonchen@tencent.com 参考 【1】 Apache Livy https://livy.apache.org/ 【2】  ApacheCalcite https://calcite.apache.org

    1.5K30编辑于 2022-03-03
领券