搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏小道
Hive参数调优
=false; 九、Hive调优配置项合集参数作用 hive.ddl.output.format hive的ddl语句的输出格式，默认是text，纯文本，还有json格式，这个是0.90以后才出的新配置 hive.exec.plan hive执行计划的文件路径，默认是null，会在运行时自动设置，形如hdfs://xxxx/xxx/xx； hive.exec.scratchdir hive用来存储不同阶段的的子类，默认是org.apache.hadoop.hive.ql.log.PerfLogger； hive.start.cleanup.scratchdir：当启动hive服务时是否清空hive的scratch ； hive.files.umask.value：hive创建文件夹时的dfs.umask值，默认是0002； hive.metastore.local：控制hive是否连接一个远程metastore ：hive的提示里是否包含当前的db，默认是false； hive.hbase.wal.enabled：写入hbase时是否强制写wal日志，默认是true； hive.hwi.war.file：hive
2.2K30发布于 2021-04-13
Hive调优总结
代码级别的调优友情提示：小编扛着发烧写完这详细的总结，请一定要给一键三连呀各位大佬 explain 与 explain exented 优化 ```powershell explain select 任务越复杂，Hql代码越复杂，stage数量越多，程序运行的时间越长 join 优化 hive的查询永远都是小表（结果集）驱动大表（结果集） hive中的on连接只能是等值连接注意点：hive是否配置普通的 hive.exec.parallel=false(建议打开) hive.exec.parallel.number=8 严格模式 ```powershell hive.mapred.mode=nonstrict 默认是不使用的 SET hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat; SET hive.optimize.index.filter ，UDAF是多行处理，还有UDTF表级别的输出 5.合理减少job和task的数量 6.小表去join大表 7.大表join大表，过滤空key 8.设置并行数 9.设置关闭推测执行 10.设置索引 11
10910编辑于 2026-06-18
来自专栏大数据仓库建设
hive mapreduce reducer 调优
hive参数配置详情可查官方文档：Hive Configuration+Properties 本文针对 reducer 调优，主要涉及一下三个参数： hive.exec.reducers.bytes.per.reducer In: Hive 0.2.0; default changed in 0.14.0 with HIVE-7158 (and HIVE-7917) Size per reducer. 官方默认值：1G 查看配置的默认值： hive> set hive.exec.reducers.bytes.per.reducer; hive.exec.reducers.bytes.per.reducer =1024000000 临时调参： hive> set hive.exec.reducers.bytes.per.reducer=15364000000; hive> set hive.exec.reducers.bytes.per.reducer 查看配置的默认值： hive> set hive.exec.reducers.max; hive.exec.reducers.max=1099 临时调参： hive> set hive.exec.reducers.max
3.3K20发布于 2019-03-14
来自专栏大数据成神之路
Hive性能调优 | 数据倾斜
往期回顾之Hive性能调优系列： Hive性能调优 | Fetch抓取 Map数通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M，可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；举例： map数量需要遵循两个原则：使大数据量利用合适的map数；使单个map任务处理合适的数据量；调整reduce数调整reduce个数方法一 a）每个Reduce 处理的数据量默认是256MB hive.exec.reducers.bytes.per.reducer =256123456 b）每个任务最大的reduce数，默认为1009 hive.exec.reducers.max=1009 c）计算reducer数的公式 N=min(参数2，总输入数据量/参数1
1K10发布于 2020-11-06
来自专栏大数据成神之路
Hive性能调优 | Fetch抓取
我们在刚开始学习hive的时候,都知道hive可以降低程序员的学习成本和开发成本,具体表现就在于可以将SQL语句转换成MapReduce程序运行。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老版本hive默认是minimal，该属性修改为more以后，在全局查找、字段查找 hive (default)> set hive.fetch.task.conversion=none; hive (default)> select * from score; hive (default hive (default)> set hive.fetch.task.conversion=more; hive (default)> select * from score; hive (default (1.568 seconds) 关闭本地模式，并执行查询语句 hive (default)> set hive.exec.mode.local.auto=false; hive (default)>
83330发布于 2020-11-06
来自专栏五分钟学大数据
Hive SQL 参数与性能调优
但是如果我们只局限于会使用Hive，而不考虑性能问题，就难搭建出一个完美的数仓，所以Hive性能调优是我们大数据从业者必须掌握的技能。本文将给大家讲解Hive参数与性能调优的一些方法及技巧。 1. JVM优化 JVM重用是Hadoop调优参数的内容，其对Hive的性能具有非常大的影响，特别是对于很难避免小文件的场景或task特别多的场景，这类场景大多数执行时间都很短。 =true 关于调优这些推测执行变量，还很难给一个具体的建议。 Hive的数据倾斜一般的处理方案：常见的做法，通过参数调优： set hive.map.aggr=true; set hive.groupby.skewindata = ture; 当选项设定为其他参数调优开启CLI提示符前打印出当前所在的数据库名 set hive.cli.print.current.db=true; 让CLI打印出字段名称 hive.cli.print.header=true
1.9K21编辑于 2022-04-07
来自专栏Spark学习技巧
Hive on Spark参数调优姿势小结
前言 Hive on Spark是指使用Spark替代传统MapReduce作为Hive的执行引擎，在HIVE-7292提出。 Hive on Spark的效率比on MR要高不少，但是也需要合理调整参数才能最大化性能，本文简单列举一些调优项。为了符合实际情况，Spark也采用on YARN部署方式来说明。 Hive参数绝大部分Hive参数的含义和调优方法都与on MR时相同，但仍有两个需要注意。 hive.auto.convert.join.noconditionaltask.size 我们知道，当Hive中做join操作的表有一方是小表时，如果hive.auto.convert.join和hive.auto.convert.join.noconditionaltask hive.merge.sparkfiles 小文件是HDFS的天敌，所以Hive原生提供了合并小文件的选项，在on MR时是hive.merge.mapredfiles，但是on Spark时会改成hive.merge.sparkfiles
4.7K30发布于 2020-09-16
来自专栏Lansonli技术博客
2021年大数据Hive（十一）：Hive调优
Hive调优一、本地模式大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过，有时Hive的输入数据量是非常小的。用户可以通过设置hive.exec.mode.local.auto的值为true，来让Hive在适当的时候自动启动这个优化。 )> set hive.exec.mode.local.auto=true; hive (default)> select * from score cluster by sid; 18 rows 三、并行执行 Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。四、严格模式 Hive提供了一个严格模式，可以防止用户执行那些可能意向不到的不好的影响的查询。通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict 。
1K20发布于 2021-10-11
来自专栏搜云库技术团队
JVM 11 的调优指南：如何进行JVM调优，JVM调优参数
JVM 11的优化指南：如何进行JVM调优，以及JVM调优参数有哪些”这篇文章将包含JVM 11调优的核心概念、重要性、调优参数，并提供12个实用的代码示例，每个示例都会结合JVM调优参数和Java代码本文已收录于，我的技术网站 ddkk.com，有大厂完整面经，工作技术，架构师成长之路，等经验分享 JVM 11的优化指南 JVM调优简介 JVM调优是通过调整Java虚拟机的配置参数来提升应用程序的性能和资源利用效率的过程 JVM调优的重要性提高性能：通过调优，可以提升应用程序的响应速度和处理能力。资源优化：合理的配置可以使应用更高效地利用系统资源。 JVM 11调优参数堆内存设置：-Xms 和 -Xmx 设置堆的起始大小和最大大小。垃圾收集器选择：-XX:+UseG1GC 使用G1垃圾收集器，适用于大堆和多核处理器。企业级 JVM 11 的调优参数，机器配置是8核32G 为配置有8核和32GB内存的机器推荐JVM 11调优参数时，需考虑应用的类型、负载特性等。
2.4K10编辑于 2024-01-17
来自专栏Java帮帮-微信公众号-技术文章全总结
虚拟机11.JVM调优_调优方法
虚拟机11.JVM调优_调优方法 ENTER TITLE JVM调优工具 Jconsole，jProfile，VisualVM Jconsole : jdk自带，功能简单，但是可以在系统有一定负荷的情况下使用如何调优观察内存释放情况、集合类检查、对象树上面这些调优工具都提供了强大的功能，但是总的来说一般分为以下几类功能堆信息查看 ? 在我们进行调优的时候，不可能用眼睛去跟踪所有系统变化，依赖快照功能，我们就可以进行系统两个不同运行时刻，对象（或类、线程等）的不同，以便快速找到问题举例说，我要检查系统进行垃圾回收以后，是否还有该收回的对象被遗漏下来的了
1.2K60发布于 2018-03-15
来自专栏岑玉海
Hive Tuning(五) 标准调优清单
Hive的标准调优清单，我们可以对照着来做我们的查询优化！
888100发布于 2018-03-01
来自专栏Hadoop实操
0924-Hive on Tez性能调优
调优Hive on Tez查询没有一个通用的方法，查询的性能取决于数据的大小、文件类型、查询设计和查询模式。 1 通用调优有时从CDH升级到CDP后，会发现Hive on Tez作业会比老的MR或者Spark要慢，这往往是因为没有对Tez作业进行调优导致的，另外在老的CDH平台中，因为一般都持续稳定运行一段时间了由以下两个属性控制： • hive.prewarm.enabled • hive.prewarm.numcontainers 7 通用Tez调优参数在处理Hive on Tez查询性能问题时，可以优先检查以下参数 8 总结 Hive on Tez查询性能分析的第一步是检查Hive 和 Hive on Tez 服务的一些关键配置，然后对于一些SQL查询作业一般需要set一些参数来进行特定的性能调优，大部分参数在本文都列出来了对于一些复杂SQL的调优，或者运行故障往往还需要对SQL的写法进行调整。
2.1K20编辑于 2024-05-18
来自专栏不温卜火
Hive快速入门系列(19) | Hive性能调优 JVM重用
此次博主为大家带来的是Hive性能调优中的JVM重用。 JVM重用是Hadoop调优参数的内容，其对Hive的性能具有非常大的影响，特别是对于很难避免小文件的场景或task特别多的场景，这类场景大多数执行时间都很短。
73720发布于 2020-10-28
来自专栏不温卜火
Hive快速入门系列(17) | Hive性能调优并行执行
此次博主为大家带来的是Hive性能调优中的并行执行。 Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。默认情况下，Hive一次只会执行一个阶段。通过设置参数hive.exec.parallel值为true，就可以开启并发执行。不过，在共享集群中，需要注意下，如果job中并行阶段增多，那么集群利用率就会增加。 set hive.exec.parallel=true; //打开任务并行执行 set hive.exec.parallel.thread.number=16; //同一个sql
1.3K10发布于 2020-10-28
来自专栏不温卜火
Hive快速入门系列(18) | Hive性能调优严格模式
此次博主为大家带来的是Hive性能调优中的严格模式。 Hive提供了一个严格模式，可以防止用户执行那些可能意想不到的不好的影响的查询。通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict 。开启严格模式需要修改hive.mapred.mode值为strict，开启严格模式可以禁止3种类型的查询。 <property> <name>hive.mapred.mode</name> <value>strict</value> <description> The mode in which the Hive operations are being performed. 不幸的是，Hive并不会执行这种优化，因此，如果表足够大，那么这个查询就会出现不可控的情况。好了，本次的分享到这里就结束了！！
1.2K20发布于 2020-10-28
来自专栏不温卜火
Hive快速入门系列(16) | Hive性能调优数据倾斜
此次博主为大家带来的是Hive性能调优中的数据倾斜。一. 合理设置Map及Reduce数 1.通常情况下，作业会通过input的目录产生一个或者多个map任务。设置最大切片值为100个字节 hive (default)> set mapreduce.input.fileinputformat.split.maxsize=100; hive (default)> set hive.input.format= org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; （2）在Map-Reduce的任务结束时合并小文件的设置：在map-only任务结束时合并小文件，默认true SET hive.merge.mapfiles = true; 在map-reduce任务结束时合并小文件，默认false SET hive.merge.mapredfiles merge SET hive.merge.smallfiles.avgsize = 16777216; 四.
1.1K20发布于 2020-10-28
来自专栏大数据成神之路
Hive常用参数调优十二板斧
hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能 hive.limit.row.max.size --- 设置最小的采样容量 hive.limit.optimize.limit.file 控制hive任务的reduce数： 1.Hive自己如何确定reduce数： reduce个数的设定极大影响任务执行效率，不指定reduce个数的情况下，Hive会猜测确定一个reduce个数，基于以下两个设定解决方案：参数调节 hive.map.aggr=true 11. 其他参数调优开启CLI提示符前打印出当前所在的数据库名 set hive.cli.print.current.db=true; 让CLI打印出字段名称 hive.cli.print.header=true set hive.merge.smallfiles.avgsize=16000000 设置如下参数取消一些限制(HIVE 0.7后没有此限制)： hive.merge.mapfiles=false 默认值
4K42发布于 2020-12-08
来自专栏Spark学习技巧
Hive常用参数调优十二板斧
hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能 hive.limit.row.max.size --- 设置最小的采样容量 hive.limit.optimize.limit.file 控制hive任务的reduce数： 1.Hive自己如何确定reduce数： reduce个数的设定极大影响任务执行效率，不指定reduce个数的情况下，Hive会猜测确定一个reduce个数，基于以下两个设定原因 1)、key分布不均匀 2)、业务数据本身的特性 3)、建表时考虑不周 4)、某些SQL语句本身就有数据倾斜解决方案：参数调节 hive.map.aggr=true 11. 其他参数调优开启CLI提示符前打印出当前所在的数据库名 set hive.cli.print.current.db=true; 让CLI打印出字段名称 hive.cli.print.header=true set hive.merge.smallfiles.avgsize=16000000 设置如下参数取消一些限制(HIVE 0.7后没有此限制)： hive.merge.mapfiles=false 默认值
1.8K10编辑于 2022-03-14
来自专栏cwl_Java
快速学习-Hive企业级调优
第 9 章企业级调优 9.1 Fetch 抓取 Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。 hive (default)> set hive.fetch.task.conversion=none; hive (default)> select * from emp; hive (default hive (default)> set hive.fetch.task.conversion=more; hive (default)> select * from emp; hive (default 9.7 JVM 重用 JVM 重用是 Hadoop 调优参数的内容，其对 Hive 的性能具有非常大的影响，特别是对于很难避免小文件的场景或 task 特别多的场景，这类场景大多数执行时间都很短。 </description> </property> 关于调优这些推测执行变量，还很难给一个具体的建议。如果用户对于运行时的偏差非常敏感的话，那么可以将这些功能关闭掉。
1.2K20发布于 2020-02-21
来自专栏大数据成长之路
Hive性能调优之JVM重用(5)
JVM重用是Hadoop调优参数的内容，其对Hive的性能具有非常大的影响，特别是对于很难避免小文件的场景或task特别多的场景，这类场景大多数执行时间都很短。 </description> </property> 我们也可以在hive当中通过 set mapred.job.reuse.jvm.num.tasks=10; 这个设置来设置我们的
1.1K10发布于 2021-01-22

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Hive参数调优

Hive调优总结

hive mapreduce reducer 调优

Hive性能调优 | 数据倾斜

Hive性能调优 | Fetch抓取

Hive SQL 参数与性能调优

Hive on Spark参数调优姿势小结

2021年大数据Hive（十一）：Hive调优

JVM 11 的调优指南：如何进行JVM调优，JVM调优参数

虚拟机11.JVM调优_调优方法

Hive Tuning(五) 标准调优清单

0924-Hive on Tez性能调优

Hive快速入门系列(19) | Hive性能调优 JVM重用

Hive快速入门系列(17) | Hive性能调优并行执行

Hive快速入门系列(18) | Hive性能调优严格模式

Hive快速入门系列(16) | Hive性能调优数据倾斜

Hive常用参数调优十二板斧

Hive常用参数调优十二板斧

快速学习-Hive企业级调优

Hive性能调优之JVM重用(5)

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Hive参数调优

Hive调优总结

hive mapreduce reducer 调优

Hive性能调优 | 数据倾斜

Hive性能调优 | Fetch抓取

Hive SQL 参数与性能调优

Hive on Spark参数调优姿势小结

2021年大数据Hive（十一）：Hive调优

JVM 11 的调优指南：如何进行JVM调优，JVM调优参数

虚拟机11.JVM调优_调优方法

Hive Tuning(五) 标准调优清单

0924-Hive on Tez性能调优

Hive快速入门系列(19) | Hive性能调优 JVM重用

Hive快速入门系列(17) | Hive性能调优 并行执行

Hive快速入门系列(18) | Hive性能调优 严格模式

Hive快速入门系列(16) | Hive性能调优 数据倾斜

Hive常用参数调优十二板斧

Hive常用参数调优十二板斧

快速学习-Hive企业级调优

Hive性能调优之JVM重用(5)

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Hive快速入门系列(17) | Hive性能调优并行执行

Hive快速入门系列(18) | Hive性能调优严格模式

Hive快速入门系列(16) | Hive性能调优数据倾斜