搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏大数据-BigData
使用spark3操作hudi数据湖初探
本文基于上述组件版本使用spark插入数据到hudi数据湖中。为了确保以下各步骤能够成功完成，请确保hadoop集群正常启动。
1.9K30编辑于 2022-01-19
来自专栏Spark学习技巧
浪尖以案例聊聊spark3的动态分区裁剪
动态分区裁剪，其实就牵涉到谓词下推，希望在读本文之前，你已经掌握了什么叫做谓词下推执行。
2K20发布于 2020-01-13
来自专栏Hadoop实操
0873-7.1.7-如何在CDP集群中安装Spark3
在CDP私有云基础上，Spark3服务与现有的Spark2服务共存，两个服务的配置不冲突，可以共用共一个Yarn服务。 Spark History服务的端口是Saprk2的18088和Spark3的18089。本篇文章主要介绍如何在CDP集群中安装及使用Spark3。虽然Spark2和Spark3可以共存与同一个CDP集群，但不能同时支持多个Spark3版本。包 5.完成Parcel包的下载后，点击“分配” 6.完成分配后，点击“激活” 7.完成上述操作后，回到CM主页面添加Spark3服务进入服务添加页面，选择需要添加的Spark3服务 8
2.9K51编辑于 2022-04-08
来自专栏Hadoop实操
0874-7.1.7-如何在CDP集群为Spark3集成Iceberg
本篇文章主要介绍如何在Apache Spark3环境下集成Iceberg并使用，Iceberg使用Apache Spark的DataSourceV2 API来实现Data Source和Catalog。关于CDP中安装Spark3可以参考Fayson前面的文章《7.1.7-如何在CDP集群中安装Spark3》。测试环境 1.CM7.4.4和CDP7.1.7 2.操作系统Redhat7.6 3.Spark版本为3.2 4.集群未启用Kerberos 2.Iceberg包下载并集成 1.在Spark3环境中使用Iceberg iceberg-spark-runtime-3.2_2.12-0.13.1.jar ll /opt/cloudera/iceberg/ 完成Iceberg的部署后，登录到CM的控制台页面进入Spark3 2.在CDP集群的Spark3默认与Hive集成，因此在指定catalog类型为Hive时则不需要额外的配置HiveMetaStore的URI信息 3.使用HiveMetastore作为Catalog时
2.1K40编辑于 2022-04-08
来自专栏数据指象
一个SQL，让人头秃
验证：Presto 引擎：select 0.01 <> "NULL"计算结果：trueOneSQL 引擎：select 0.01 <> "NULL"计算结果：trueSpark/Spark3引擎 Spark/Spark3引擎会强制右侧比较字段的类型向左侧比较字段类型靠齐，所以 select 0.01<> cast("NULL" as double) 结果是 NULL。
18600编辑于 2024-09-27
来自专栏Hadoop实操
0785-基于CDP7.1.1的Spark3.0技术预览版本发布
对于Spark3的新特性，可以参考文章《开源生态的新发展：Apache Spark 3.0、Koala和Delta Lake》。以下是Spark3的关键新特性： 1.Spark3的TPC-DS性能进一步提升； 2.语言支持 a)Scala version is upgraded to 2.12 b)JDK11 is fully docs.cloudera.com/runtime/7.1.1/cds-3/topics/spark-spark-3-overview.html 下载地址： http://archive.cloudera.com/p/spark3 /2.99.7110.0/csd/SPARK3_ON_YARN-3.0.0.2.99.7110.0-18.jar http://archive.cloudera.com/p/spark3/2.99.7110.0
1.3K40发布于 2020-06-19
来自专栏携程技术
干货 | 携程数据基础平台2.0建设，多机房架构下的演进
引擎层从 Spark2 升级到 Spark3，使用 Kyuubi 作为 Spark 的查询入口。 2021 年 10 月随着 Spark 3.2 发布，开始着手调研升级的可行性，最终经过一系列的探索，移植多个 Spark2 定制需求，完成了 Spark2 到 Spark3 的平滑升级。虽然 ORC-162 (Handle 0 byte files as empty ORC files) 补丁可以修复此问题，但是对多个组件的低版本进行升级是一件较为困难的事，所以采取了对 Spark3 依赖的 Hive 版本进行修复，创建一个无数据空 schema 的 ORC 文件，保证灰度升级的时候，Spark3 产出的数据文件，下游 Spark，Hive 都可以正常读取该表的数据。 Thrift Server 在升级 Spark3 的时候，决定废弃原有的 Spark2 的 Thrift Server 的改造实现，引入 Apache Kyuubi 项目。
1K10编辑于 2024-05-31
来自专栏Albert陈凯
P04_zookeeper-cdh5集群搭建
节点标识 cd zk mkdir data cd data vi myid 0 搭建zk集群 1、在另外两个节点上按照上述步骤配置ZooKeeper，使用scp将zk和.bashrc拷贝到spark2和spark3 2、唯一的区别是spark2和spark3的标识号分别设置为1和2。启动ZooKeeper集群 1、分别在三台机器上执行：zkServer.sh start。
89060发布于 2018-04-08
来自专栏大数据-BigData
如何基于 Spark 和 Z-Order 实现企业级离线数仓降本提效？
那么除了在性能上 Spark3 已经有了充分的保障，剩下的使用痛点集中在了写这个环节。面对这一系列问题，我们基于 Spark3 + Z-Order 提出了以下这些解决方案，并且已经在线上环境取得了非常好的效果。 2.2 案例分析落地到具体任务中，可以进行从 Spark2 升级到 Spark3 再做 Z-Order 优化的操作。 ·Spark2 -> Spark3 在实际操作中，由于引入了一次 Shuffle，任务会多一个 Stage，但执行时间却大幅度缩短。 05 小结本文介绍了我们基于 Spark3 + Z-Order对于企业级离线数仓类任务的优化方案，初步解决了当前在迁移和在历史使用 Spark 的痛点。
1K20编辑于 2022-09-30
来自专栏深度学习与python
存储和计算资源都节省30%，网易云音乐数据治理实践
云音乐集群是在21年年中上线了spark3执行引擎，经过大半年的使用，我们确实在spark3上体验到了非常棒的效果，网易数帆大数据团队的同学也在spark3上进一步做了大量的优化，例如AQE增强优化、zorder 当前spark3引擎在计算资源、存储资源、小文件问题上获得了大幅的提升。在这个背景下我们在22年Q2阶段开始任务迁移至spark3的专项。涉及的迁移事项有 hive 迁移spark3 spark2版本的sql任务迁移至spark3，核心任务和高成本任务的spark3+zorder+gzip升级。 spark工程任务迁移spark3的专项。每一项在节省资源上都获得了巨大的提升。项目成果 5.1 成本收益经过一系列的治理动作，我们在存储和计算方面获得了颇丰的收益。
1.3K30编辑于 2023-03-29
来自专栏腾讯大数据的专栏
智能计算时代 | SuperSQL基于监督学习模型的自适应计算提效能力
SuperSQL当前支持的分布式计算引擎，包括 Livy（底层对接Spark3）【1】、Hive (MapReduce）和Presto。引擎类型 Presto Livy（Spark3）社区Hive 计算模型 MPP DAG MapReduce（暂不考虑Tez、LLAP）适合SQL类型 DQL（select/with） DQL，DML 没有引入计算提效优化之前，SuperSQL默认的跨源计算引擎是Livy（Spark3），而单源SQL则是TDW Hive（THive）中的Spark 2.x。 2.提效判定：通过对某个SQL对应的最优物理计划树进行一系列的RBO匹配与检测，以及对执行计划树中的Scan或Join节点进行CBO大小估算，这类SQL会自动回退Livy + Spark3（跨源）或者 2.Thive + Hive SQL：如果用户SQL同时访问了THive和社区Hive库表，或者只访问了社区Hive库表，提交Livy + Spark3重试。
1.5K30编辑于 2022-03-03
来自专栏Hadoop实操
基于Apache Spark 3.1.1的CDS 3.1正式GA
的所有性能增强提升，比如新的优化器规则和改进的子表达式消除；统一创建表SQL的语法； Shuffled hash join改进；下载地址： https://archive.cloudera.com/p/spark3
82830发布于 2021-04-19
来自专栏最新最全的大数据技术体系
大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day16】——Spark3
1）用于设置RDD持久化数据在Executor内存中能占的比例，默认是0.6,，默认Executor 60%的内存，可以用来保存持久化的RDD数据。根据你选择的不同的持久化策略，如果内存不够时，可能数据就不会持久化，或者数据会写入磁盘； 2）如果持久化操作比较多，可以提高spark.storage.memoryFraction参数，使得更多的持久化数据保存在内存中，提高数据的读取性能，如果shuffle的操作比较多，有很多的数据读写操作到JVM中，那么应该调小一点，节约出更多的内存给JVM，避免过多的JVM gc发生。在web ui中观察如果发现gc时间很长，可以设置spark.storage.memoryFraction更小一点。
39010编辑于 2021-12-07
来自专栏Hadoop实操
0879-7.1.7-如何在CDP安装NVIDIA Tesla T4并使用RAPIDS加速
我们再来看看官方给出的ETL在CPU和GPU上的对比数据：本文主要描述如何在CDP7.1.7中对计算节点安装NVIDIA Tesla T4，并使用RAPIDS对Spark3应用进行加速。 100000000, 6).toDFdf.select($"value" as "a").join(df2.select($"value" as "b"), $"a" === $"b").count 4.2 Spark3 spark-rapids/docs/configs.html Tuning Guidehttps://nvidia.github.io/spark-rapids/docs/tuning-guide.html Apache Spark3
1.2K20编辑于 2022-04-28
来自专栏java编程那点事
Spark全分布部署和HA
7077 #下面的可以不写，默认 export SPARK_WORKER_CORES=1 export SPARK_WORKER_MEMORY=1024m 配置文件：conf/slave spark2 spark3
32810编辑于 2023-02-25
来自专栏大数据学习笔记
Spark Doris Connector试错
1、测试Spark3 （1）官网文档 http://doris.apache.org/master/zh-CN/extending-doris/spark-doris-connector.html#% at org.apache.spark.rdd.RDD.count(RDD.scala:1253) ... 49 elided scala> 2、测试Spark2 原来当前Doris还不支持Spark3
2.2K20发布于 2021-08-18
来自专栏ApacheHudi
Apache Hudi 0.7.0版本重磅发布
写入端优化 •Spark3支持；0.7.0版本支持使用Spark3进行写入和查询，请注意使用scala 2.12版本的hudi-spark-bundle包；•并行Listing；我们已将所有List操作移至
71720发布于 2021-04-13
来自专栏kenvie
Spark SQL在雪球的实践
经过一段时间推广和使用，目前在交互查询和离线ETL很多场景和计算都已经支持了Spark SQL：本文主要分享了从Hive3 SQL切换成Spark3 SQL的实践。遇到问题得益于Spark3性能的提升和AQE机制，性能上很少遇到问题。因为集群在切换过程中需要同时支持Spark2(Hive on Spark2)和Spark3，所以需要保证集群能够同时支持两个版本的shuffle service。
3.7K20编辑于 2022-05-03
来自专栏数据仓库践行者
额，关于笛卡尔积CartesianProduct
翻了之前版本的源码，发现了出处： spark1.0版本的窄依赖注释：其中父RDD的每个分区最多由子RDD的一个分区使用所以，我想，恐怕现在网上流行的都是spark1.0版本的窄依赖定义，现在已经进化到spark3
77120编辑于 2022-11-25
来自专栏最新最全的大数据技术体系
Hive的基本知识(一)
当下Hive支持MapReduce、 Tez、Spark3种执行引擎。
58310编辑于 2021-12-07

第 2 页第 3 页

点击加载更多

使用spark3操作hudi数据湖初探

浪尖以案例聊聊spark3的动态分区裁剪

0873-7.1.7-如何在CDP集群中安装Spark3

0874-7.1.7-如何在CDP集群为Spark3集成Iceberg

一个SQL，让人头秃

0785-基于CDP7.1.1的Spark3.0技术预览版本发布

干货 | 携程数据基础平台2.0建设，多机房架构下的演进

P04_zookeeper-cdh5集群搭建

如何基于 Spark 和 Z-Order 实现企业级离线数仓降本提效？

存储和计算资源都节省30%，网易云音乐数据治理实践

智能计算时代 | SuperSQL基于监督学习模型的自适应计算提效能力

基于Apache Spark 3.1.1的CDS 3.1正式GA

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day16】——Spark3

0879-7.1.7-如何在CDP安装NVIDIA Tesla T4并使用RAPIDS加速

Spark全分布部署和HA

Spark Doris Connector试错

Apache Hudi 0.7.0版本重磅发布

Spark SQL在雪球的实践

额，关于笛卡尔积CartesianProduct

Hive的基本知识(一)

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐