搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏大数据&分布式
Hive CBO优化剖析
基于Operator转为Task，基于物理计划树(算子树) 实现物理优化 CBO优化实现原理 Hive使用HiveVolcanoPlanner 继承原生的Calcite VolcanoPlanner Hive基于CBO优化的解析数据对象流转如下所示： Hive CBO实现内核：在QB转Operator逻辑计划时进行扩展处理，QB → Calcite CBO优化 → Operator。 =val2], ...)] 本文通过背景介绍、解析流程、CBO优化三部分详述Hive CBO原理。Hive SQL核心解析流程包括解析、语义分析、逻辑优化、物理优化步骤。 Hive CBO优化依赖Calcite 火山模型优化器实现，本文介绍了相关的CBO实现原理，CBO统计元数据和ANALYZE执行实现。我正在参与2024腾讯技术创作特训营最新征文，快来和我瓜分大奖！
89962编辑于 2024-04-27
来自专栏mazhen.tech
基于代价优化（CBO）实现代码导读
CBO的整体思路是：从逻辑查询计划树，自上而下枚举每个逻辑运算符可能的物理算子，从所有可能的执行路径中选择一条评估代价最小的作为物理查询计划。 CBO核心流程的代码在plan/optimizer.go中的physicalOptimize： func physicalOptimize(logic LogicalPlan) (PhysicalPlan curTask := pp.attach2Task(childTasks...) // get the most efficient one. 代价评估相关逻辑涉及的代码：计算关系的统计信息：plan/stats.go 计算task的代价：plan/task.go中的attach2Task系列方法。
30210编辑于 2023-11-24
来自专栏about云
Apache Spark 2.2中基于成本的优化器（CBO）
问题导读 1.什么是CBO,RBO? 2.什么是执行计划？ 3.什么是join，filter？ 4.事实表和维度表的区别？ Spark的基于成本的优化器（CBO）并讨论Spark是如何收集并存储这些数据、优化查询，并在压力测试查询中展示所带来的性能影响。 CBO依赖细节化的统计信息来优化查询计划。要收集这些统计信息，用户可以使用以下这些新的SQL命令： [AppleScript] 纯文本查看复制代码 ? 总之，关闭CBO,查询花费了241秒。使用了CBO的Q25 另一方面，用了CBO,Spark创建了优化方案可以减小中间结果（如下）。在该案例中，Spark创建了浓密树而不是左-深度树。这是因为使用或没使用CBO的查询计划没有不同 (例如，即使没有CBO, Spark’s Catalyst 优化器的柱状图也可以优化这些查询。
2.5K70发布于 2018-03-26
来自专栏老虎刘谈oracle性能优化
CBO规则下的优化器还是要按规则办事
另外, like 'xxxxx%' 也用不了降序索引. test case2: with as写法有些人把with as 的写法当成了SQL优化的方法,好像用了这个语法就能让SQL效率提高, 下面这个案例是把一个复杂的生产案例做了简化 tmp where object_id=100 union all select count(*) from tmp where object_id=200; 上面SQL, 因为tmp被使用了两次, 被优化器自动做了上面两个案例我认为优化器应该能够做出最好的选择, 实际并不如我们想象的那么美好. oracle数据库有公认的最强大的优化器, 强大如此, 也有一些可以改进的地方. oracle 的优化器是CBO (costed
52930编辑于 2022-06-27
来自专栏大数据架构
Spark SQL 性能优化再进一步 CBO 基于代价的优化
它属于 LogicalPlan 的优化，所有优化均基于 LogicalPlan 本身的特点，未考虑数据本身的特点，也未考虑算子本身的代价。未开启 CBO 时，根据表原始数据大小选择 t2 作为build side ? 而开启 CBO 后，基于估计的代价选择 t1 作为 build side。更适合本例 ? 而开启 CBO 后，由于 Table 1 经过 Filter 1 后结果集大小为 500 GB，Table 2 经过 Filter 2 后结果集大小为 10 MB 低于自动 BroatcastJoin 优化多表 Join 顺序未开启 CBO 时，Spark SQL 按 SQL 中 join 顺序进行 Join。极端情况下，整个 Join 可能是 left-deep tree。开启 CBO 后， Spark SQL 将执行计划优化如下 ?
1.2K30发布于 2018-10-10
来自专栏大数据架构
Spark SQL 性能优化再进一步 CBO 基于代价的优化
未开启 CBO 时，根据表原始数据大小选择 t2 作为build side [Spark SQL build side without CBO] 而开启 CBO 后，基于估计的代价选择 t1 作为 build 而开启 CBO 后，由于 Table 1 经过 Filter 1 后结果集大小为 500 GB，Table 2 经过 Filter 2 后结果集大小为 10 MB 低于自动 BroatcastJoin [Spark SQL join type selection with CBO] 优化多表 Join 顺序未开启 CBO 时，Spark SQL 按 SQL 中 join 顺序进行 Join。后， Spark SQL 将执行计划优化如下 [Spark SQL multi join reorder with CBO] 优化后的 Join 有如下优势，因此执行时间降至 71 秒 Join 树不再是 ——解决Spark数据倾斜（Data Skew）的N种姿势 Spark SQL / Catalyst 内部原理与 RBO Spark SQL 性能优化再进一步 CBO 基于代价的优化 Spark CommitCoordinator
1.6K30发布于 2018-10-09
来自专栏BigDataplus
Hive优化器原理与源码解析系列—CBO成本模型CostModel(一)
但除了MapReduce和Tez外，其他引擎都有自己优化器实现。优化器在用户HiveConf配置的引擎信息，来使用不同的成本模型。优化器的成本模型CostModel设计的是否完善、是否科学直接决定着CBO优化器计算构建出执行计划plan是否准确，同样Hive优化器根据CostMode也是基于Hive Operator Tree操作树中节点 = hive.cbo.costmodel.cpu，依次类推）： CPU成本 = HiveConf.ConfVars.HIVE_CBO_COST_MODEL_CPU 网络成本 = CPU成本 * HiveConf.ConfVars.HIVE_CBO_COST_MODEL_NET 在这里来确定Join 算法可减少优化器的搜索空间，提高效率。
1.8K30编辑于 2022-04-25
来自专栏大数据&分布式
Spark CBO统计元数据
Logical Plan(未解析逻辑计划)；基于Analyzer#apply规则的匹配作用，绑定树节点信息(元数据Catalog)后生成Logical Plan(逻辑计划)；基于Optimizer#apply优化低效的逻辑树结构，生成Optimized Logical Plan(优化逻辑计划)；基于SparkPlanner#plan，根据Optimized Logical Plan匹配对应的Strategy并生成一组Physical 统计信息 Spark 2.2 开始支持CBO优化，触发统计元数据更新的时机如下： ANALYZE：AnalyzeTableCommand、AnalyzeColumnCommand； ALTER：AlterTableAddPartitionCommand
71296编辑于 2025-03-20
来自专栏沃趣科技
SQL优化案例-改变那些CBO无能为力的执行计划
用户写的sql，Oracle会进行等价改写，即使是RBO优化模式，Oracle也会给你做一些转换，这些转化都是基于一种固定的算法，oracle称这种转换是“启发式”的。网上有很多优化法则，有的说exists比in效率高，有的说in比exists执行的快，那就要看SQL是如何写的，CBO是如何转换的，是否能转换？当然这种转换不是基于成本的而是“基于启发的转化”。当Oracle没办法做transformation的时候，可能就是sql产生问题的时候，此时就要我们去找原因了，下面通过一些案例，说明这种优化器无能为力的情况（为了保护客户的隐私，表名和部分列已经重命名 ACCT_S_BK B on (A.ACCT_ID = B.ACCT_ID) when matched then update set a.ACCT_SKID = B.ACCT_SKID; 实际执行中，2s A.CUSTNO=c.KHH and A.OPENCUPDATE+365=TO_DATE('2018-04-27','YYYY-MM-DD') where CUPCHECKSTT IN ('1','2'
1.2K70发布于 2018-05-15
来自专栏BigDataplus
Hive优化器原理与源码解析系列—CBO成本模型CostModel(二)
Hive优化器原理与源码解析系列—CBO成本模型CostModel(一) 这篇文章是关于Tez引擎的CostModel成本模型：HiveTezCostModel Tez引擎的成本模型，相对比较完善， SMB Join SMB Join又称Sort Merge Bucket Join，是对上述Bucket Map Join关联算法的优化，如果要Join的数据已按Join key排序的，则避免创建哈希表 RowCount ：输入RelNode1左侧记录数 + 输入RelNode2右侧记录数之和通过RelMetadataQuery对象分别获取左右两侧记录数 CPU RowCount ：输入RelNode1左侧记录数 + 输入RelNode2右侧记录数之和通过RelMetadataQuery对象分别获取左右两侧记录数 CPU 相对于MR引擎的默认成本模型要完善了很多，越准确的成本模型越有利于CBO构建出越优化的执行计划。
82020编辑于 2022-04-25
来自专栏数栈技术分享
袋鼠云数栈基于CBO在Spark SQL优化上的探索
原文链接：袋鼠云数栈基于 CBO 在 Spark SQL 优化上的探索一、Spark SQL CBO 选型背景 Spark SQL 的优化器有两种优化方式：一种是基于规则的优化方式 (Rule-Based 2、CBO 是 RBO 改进演化的优化方式 CBO 是对 RBO 改进演化的优化方式，它能根据优化规则对关系表达式进行转换，生成多个执行计划，在根据统计信息 (Statistics) 和代价模型 (Cost 3、 CBO 与 RBO 优势对比 ● RBO 优化例子下面我们来看一个例子：计算 t1 表（大小为：2G）和 t2 表（大小为：1.8G）join 后的行数上图是： SELECT COUNT( t1.id) FROM t1 JOIN t2 ON t1.id = t2.id WHERE t1.age > 24 基于 RBO 优化后生成的物理执行计划图。 AQE 是动态 CBO 的优化方式，是在 CBO 基础上对 SQL 优化技术又一次的性能提升。
1.6K20编辑于 2022-06-10
来自专栏大数据&分布式
Presto CBO统计元数据
ConnectorMetadata#getTableStatistics获取元数据信息，目前仅Hive Connector、Iceberg Connector支持获取元数据的统计信息，统计信息用于树节点Visitor遍历时进行CBO 优化。 ConnectorMetadata#getTableStatistics获取元数据信息，目前仅Hive Connector、Iceberg Connector支持获取元数据的统计信息，统计信息用于树节点Visitor遍历的CBO 优化： Hive统计元数据：调用HiveStatisticsProvider#getTableStatistics方法，底层调用对应Metastore Client RPC接口，包括 getTableStatistics
54142编辑于 2024-05-12
来自专栏Oracle数据库技术
CBO 查询转换(2):反结合的NULL识别机能（null aware anti-join ）
那这种情况下，CBO 如何来转换用户的 SQL 呢。11g 开始 Oracle 为我们提供了 null aware anti-join 机能，我们再来看看这个机能长什么样子。 t1 where c2 not in (select c2 from t2 where c2 is not null); C1 C2 ---------- ------- ="C2") SQL> select t1.* from t1 where c2 not in (select c2 from t2 where c2 is not null); 我们在写 SQL 的时候假如能把带有 NULL 的可能性给排除掉的话，我认为是最理想的，可以避免很多不必要的麻烦，这就要求各位程序员同学们编写 SQL 时需要注意到一些细节，不要过分指望 Oracle 的优化器来排除全部问题 SQL> select t1.* from t1 where c2 is not null and c2 not in (select c2 from t2 where c2 is not null);
44210编辑于 2022-08-19
来自专栏YoungGy
【优化2】整数优化
或的逻辑约束三个选择的或只有才更多或整数可除多边形组合固定花费分段线性组合型 set covering set packing 食堂定位地图填色 Julia例子 9数独概述整数优化就是线性优化 x1被选中当且仅当x2被选中。 x2或x3被选中，可以都被选中。 x2或x3被选中，不可以都被选中。对应的IP约束为： x1-x3<=0 x1+x5<=1 x1-x2=0 x2+x3>=1 x2+x3=1 或的逻辑约束或的逻辑问题，可以用用bigM方法去解决，其思想是通过添加新的变量，将部分约束变成多余的例如，对于问题 [图片] 或 [图片] （两者可以都出现），y1、y2的定义域是[0，5]。 and column j to j+2 @constraint(m, sum{x[r,c,k], r=i:i+2, c=j:j+2} == 1) end for i = 1:9, j = 1:
1.8K50发布于 2018-01-05
来自专栏bisal的个人杂货铺
CBO如何选择相同cost的索引
ACOUG年会杨长老的演讲中，曾提到一个问题，一条SQL语句，两种执行计划的cost值相同，CBO是如何选择执行计划？对于以下SQL， select * from z where a=1 and b=1; 根据10053显示，可以看出，IDX_Z_01和IDX_Z_02这两个索引，cost相同，CBO会选择何种执行计划，CBO对于Cost值相同的索引的选择实际上会这样： 1. 先验证(2)的观点，从上面10053可以看出，两个索引的cost相同，叶子块数相同，此时CBO选择的是IDX_Z_01，因为他的名字，排在IDX_Z_02前面， Best:: AccessPath: ，Oracle CBO还是有方法选择，索引叶子块是第一个条件，索引名称排序是第二个条件。
1.3K60发布于 2019-01-30
来自专栏mathor
枚举+优化（6）——双指针优化2
ans ans = s } } } print ans 这个算法的时间复杂度是O(NML)，NML是三个数组的长度，最大值都是10万，显然会超时优化第二个数组是1，2，4，5，10，13，第三个数组未知，什么清空都有可能。 ); } cout << ans; return 0; } 例4.题目链接：hihoCoder1607 思路一般的暴力枚举这题肯定是过不了的，数据量太大，那我们就要想办法优化
62750发布于 2018-06-19
来自专栏java学习java
延时队列优化（2）
看起来似乎没什么问题，但是在最开始的时候，就介绍过如果使用在消息属性上设置TTL的方式，消息可能并不会按时“死亡“，因为RabbitMQ只会检查第一个消息是否过期，如果过期则丢到死信队列，如果第一个消息的延时时长很长，而第二个消息的延时时长很短，第二个消息并不会优先得到执行。
1.8K30编辑于 2022-11-13
来自专栏技术杂记
Mysql 优化存储2
可以打印出差异的部分，我们就是通过有无差异的记录条目来确认一致性从结果来看，是空的，说明主备数据是一致的 Note: 此时指定的host要是slave，也就是待检查的对象 ---- 停止复制在待优化的 status\G mysql> stop slave; 停止复制后，最好再使用一个文本记录一下当前的position，以避免窗口信息丢失后，又执行了reset slave命令产生不良后果 ---- 生成优化语句
52710编辑于 2022-03-21
来自专栏tea9的博客
优化android程序2
数据库缓存存到本地数据库以便管理 android的本地数据是SQLite 一个高速的文本数据库使用这种方式有两种好处 1.客户端可以快速的从本地数据库获取数据就算偶尔出现网络中断，我们也可以看到信息 2.
27120编辑于 2022-07-16
来自专栏bisal的个人杂货铺
Oracle CBO选错执行计划的一种场景
计算了这条SQL各种执行计划，认为全表扫描效率最高，成本cost值是2，因此执行计划，如下所示，选择全表扫描， ? (ORDER BY DECODE(TYPE#, 1,2,2,1 = O.OBJ# AND O.OWNER# = U.USER# ORDER BY DECODE(ST.TYPE#, 1,2,2,1 30), OBJNAME VARCHAR2(30), SUBNAME VARCHAR2(30), TYPE# PLS_INTEGER, BO 2. 虽然CBO对于执行计划cost计算，属于机密，但是10053可以间接，让我们了解CBO如何选择，某一个执行计划，再根据表、索引等统计信息，结合来看，有可能就发现一些线索。
61360发布于 2019-01-30

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Hive CBO优化剖析

基于代价优化（CBO）实现代码导读

Apache Spark 2.2中基于成本的优化器（CBO）

CBO规则下的优化器还是要按规则办事

Spark SQL 性能优化再进一步 CBO 基于代价的优化

Spark SQL 性能优化再进一步 CBO 基于代价的优化

Hive优化器原理与源码解析系列—CBO成本模型CostModel(一)

Spark CBO统计元数据

SQL优化案例-改变那些CBO无能为力的执行计划

Hive优化器原理与源码解析系列—CBO成本模型CostModel(二)

袋鼠云数栈基于CBO在Spark SQL优化上的探索

Presto CBO统计元数据

CBO 查询转换(2):反结合的NULL识别机能（null aware anti-join ）

【优化2】整数优化

CBO如何选择相同cost的索引

枚举+优化（6）——双指针优化2

延时队列优化（2）

Mysql 优化存储2

优化android程序2

Oracle CBO选错执行计划的一种场景

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Hive CBO优化剖析

基于代价优化（CBO）实现代码导读

Apache Spark 2.2中基于成本的优化器（CBO）

CBO规则下的优化器还是要按规则办事

Spark SQL 性能优化再进一步 CBO 基于代价的优化

Spark SQL 性能优化再进一步 CBO 基于代价的优化

Hive优化器原理与源码解析系列—CBO成本模型CostModel(一)

Spark CBO统计元数据

SQL优化案例-改变那些CBO无能为力的执行计划

Hive优化器原理与源码解析系列—CBO成本模型CostModel(二)

袋鼠云数栈基于CBO在Spark SQL优化上的探索

Presto CBO统计元数据

CBO 查询转换(2):反结合的NULL识别机能（null aware anti-join ）

【优化2】整数优化

CBO如何选择相同cost的索引

枚举+优化（6）——双指针优化2

延时队列优化 （2）

Mysql 优化存储2

优化android程序2

Oracle CBO选错执行计划的一种场景

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

延时队列优化（2）