首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据成神之路

    Hive SQL经典优化案例

    HiveSQL经典优化案例一: 1.1 将要执行的查询(执行了 1个多小时才出结果): SELECT dt as DATA_DATE,STRATEGY,AB_GROUP,SOURCE, count 1.4 先看每个字段将会有多少分区(因为 Hive 表分区也不宜过多,一般一个查询语句涉及到的 hive分区 应该控制在2K内) jdbc:hive2://ks-hdp-master-01.dns.rightpad 新建分区表,并将原表数据插入新表: show create table dwb_v8sp_tmp.base_report_bystrategy_byab_source_column_zkl; jdbc:hive2 HiveSQL经典优化案例二: 问题描述:一个复杂的SQL,查询执行一段时间后报错:基本上是查不出来; 分析函数对于大表来说不是 hive的强项,这个时候我们将其分解成很多子集,并且合理利用 hive HiveSQL经典优化案例三: 如下SQL,用到了 PERCENTILE_APPROX 函数,问题描述:如下SQL,用到了 PERCENTILE_APPROX 函数,个人初步分析认为:由于用到该函数的次数太多

    1.8K30发布于 2020-09-27
  • 来自专栏Lansonli技术博客

    2021年大数据Hive(十二):Hive综合案例!!!

    Hive综合案例案例对视频网站的数据进行各种指标分析,为管理者提供决策支持. job.setMapOutputKeyClass(Text.class);       job.setMapOutputValueClass(NullWritable.class);       //本案例中没有 0:1);;     }   } ​​​​​​​四、准备工作 1、 创建 hive 表 创建表:youtubevideo_ori,youtubevideo_user_ori 创建表:youtubevideo_orc categoryid  ORDER BY ratings  DESC) AS rn  FROM  youtubevideo_category     )t   where t.rn <= 10; 6

    2K10发布于 2021-10-11
  • 来自专栏阿年的数据梦

    Hive常用函数案例实操

    综合练习 6. 查询顾客的购买明细及月购买总额 7. 将每个顾客的cost按照日期进行累加 8. 求明细,以及每个月有哪些顾客来过 9.

    1.2K50编辑于 2022-11-02
  • 来自专栏Jed的技术阶梯

    Hive案例01-行列转换

    介绍Hive查询中的行列转换的用法 1. 案例一:求数学成绩比语文成绩好的学生的ID (1) 需求分析 现有 hive 表 score, 内容如下: hive> select * from score; 1 1 yuwen 43 2 1 shuxue 55 3 2 yuwen 77 4 2 shuxue 88 5 3 yuwen 98 6 3 shuxue 65 其中字段意义: t2中的数据: 1 43 55 2 77 88 3 98 65 --(3) SELECT sid FROM t2 WHERE shuxue > yuwen; 结果: 1 2 2.案例二 :销售表的行列转换 (1) 需求 现有hive表sales,内容如下: hive> select * from sales; sales.y sales.season sales.sale 1991

    2.4K10发布于 2018-09-13
  • 来自专栏Jed的技术阶梯

    Hive案例02-数值累加

    ---- 介绍Hive查询中数值累加的思路的方法 1. 需求分析 现有 hive 表 record, 内容如下: hive> select * from record; OK A 2015-01 5 A 2015-01 15 B 2015-01 5 A 2015-01 8 B 2015-01 25 A 2015-01 5 A 2015-02 4 A 2015-02 6 方法二:使用Hive窗口函数max()、sum() select userid, month, count, sum(count) over(partition by userid order by

    2.7K30发布于 2018-09-13
  • 来自专栏踏歌行的专栏

    Hive-1.2.1_05_案例操作

    sc(Sno int,Cno int,Grade int) 11 row format delimited fields terminated by ','; 12 13 # 查看有哪些表 14 hive 数据准备 相关数据 1 [yun@mini01 exercise]$ pwd 2 /app/software/hive/exercise 3 [yun@mini01 exercise]$ ll /app/software/hive/exercise/ 4 total 12 5 -rw-rw-r-- 1 yun yun 81 Jul 18 17:44 course.dat 6 -rw-rw-r 0: jdbc:hive2://mini01:10000> load data local inpath '/app/software/hive/exercise/course.dat' into table 6 7,y 7 8,u 8 [yun@mini01 exercise2]$ cat /app/software/hive/exercise2/b.dat 9 2,bb 10 3,cc 11 7,

    52620发布于 2020-10-15
  • hive导入导出实操案例

    Import 数据到指定 Hive 表中 注意:先用 export 导出后,再将数据导入。 hive (default)> import table student2 partition(month='201709') from '/user/hive/warehouse/export/student '; 2.数据导出Insert 导出 (1)将查询的结果导出到本地 hive (default)> insert overwrite local directory '/opt/module/datas .txt; Hive Shell 命令导出 基本语法:(hive -f/-e 执行语句或者脚本 > file) [hadoop@hadoop102 hive]$ bin/hive -e 'select /warehouse/export/student'; 6.清除表中数据(Truncate) 注意:Truncate 只能删除管理表,不能删除外部表中数据 hive (default)> truncate

    31310编辑于 2025-12-23
  • 来自专栏Jed的技术阶梯

    Hive案例04-员工部门表综合案例

    数据说明 (1) dept表 hive> select * from dept; # deptno(部门编号) dname(部门名称) loc(部门所在地区) 10 SALES CHICAGO 40 OPERATIONS BOSTON (2) emp表 hive hiredate) as min_date from emp) tmp on emp.hiredate = tmp.min_date; # 结果 SMITH 1980-12-17 # 注意,以下SQL在hive MANAGER 2975.0 2758.3333333333335 PRESIDENT 5000.0 5000.0 SALESMAN 1600.0 1400.0 (6) 5000.0 NEW YORK (7) 查询上半年入职员工最多的地区 create table e1 as select emp.ename ename, substring(emp.hiredate, 6,

    1K51发布于 2018-09-13
  • 来自专栏有关SQL

    Hive 入门 Group By 全案例【附代码】

    不明就里的读者可以看上一篇: Hive 的入门级 Group By 全案例 昨晚发文之后,有读者陆陆续续在星球发问了,脚本到底该怎么写? 环境: Hive: 2.7.7 Oracle SQL Developer Cloudera JDBC Driver 案例 - 1 : Group by 的常规化应用 select schema_id image 案例 - 2 : Group by 之 Grouping Sets 应用 select schema_id , type_desc , count(object_id 案例 - 3 : Group by 之 with cube select schema_id , type_desc , count(object_id) as object_count type_desc grouping sets((schema_id,type_desc),schema_id,type_desc,()) order by schema_id ,type_desc 案例

    1.3K20发布于 2019-12-25
  • 来自专栏Jed的技术阶梯

    Hive案例03-最高气温

    题目要求 现有hive表temp,其中只有一个字段(temp_record string),每一行代表某一天的气温,比如,2014010114代表,2014年1月1日的气温为14度,表中数据如下: hive 2010010216 2010010317 2010010410 2010010506 2015010649 2015010722 2015010812 2015010999 2015011023 要求:用hive

    50030发布于 2018-09-13
  • 来自专栏ShowMeAI研究中心

    图解大数据 | 实操案例-Hive搭建与应用案例

    Hive会自动加载 conf/hive-site.xml 配置文件,官方在 conf/hive-default.xml.template 提供了一个模板文件,里面是 Hive 加载不到 hive-site.xml /hive-3.1.3# cat conf/hive-site.xml <? 现在命令行使用Hive命令,将会自动根据 hive-site.xml 连接到 metastore 服务,运行Hive命令做一下测试: root@ubuntu:~/bigdata/hive-3.1.3# 以上就是Hive的完整搭建过程,小伙伴们就可以欢快地开始使用Hive了。 2.Hive应用案例案例对视频网站的数据进行各种指标分析,为管理者提供决策支持。 ORDER BY ratings DESC) AS rn FROM youtubevideo_category)t WHERE t.rn <= 10; 6

    1.1K31编辑于 2022-03-09
  • 来自专栏Jed的技术阶梯

    Hive案例05-学生成绩表综合案例

    数据说明 (1) student表 hive> select * from student; # 学生ID 学生姓名 性别 年龄 所在系 # sid sname 95013 Matthew male 21 CS 95014 Nicholas female 19 CS ...... (2) course表 hive Biology (3) sc表 hive> select * from sc; # 学生ID 课程ID 成绩 # sid cid score 95001 1 <1> 查询全体学生的学号与姓名 select sid, sname from student; <2> 查询选修了课程的学生姓名 select distinct sid from sc; (2) hive 95015 Jackson male 18 MA 3 95015 Jackson male 18 MA 4 95015 Jackson male 18 MA 6

    1.5K40发布于 2018-09-13
  • 来自专栏大数据成长之路

    Hive性能优化之推测执行(6)

    Hive 同样可以开启推测执行 设置开启推测执行参数:Hadoop的mapred-site.xml文件中进行配置 <property> <name>mapreduce.map.speculative </description> </property> 不过hive本身也提供了配置项来控制reduce-side的推测执行: <property> <name>hive.mapred.reduce.tasks.speculative.execution 到这里Hive性能调优的系列就到此完结的,还有什么好的内容大家可以在评论区积极留言,小菌会经过筛选之后会择优采纳,希望大家多多支持!

    1K30发布于 2021-01-22
  • 来自专栏有关SQL

    Hive 的入门级 Group By 全案例

    熟悉 sql server 一定不陌生,其实就是从 sql server 导了一张系统表 sys.objects 到 Hive 里面。 具体方法可以参考这里: 使用 Sqoop 将 30W+ MySQL 数据导入 Hive 这是 Hive 的第一篇公开文,讲解 group by 用法。 其余的文章存着,大家热情起来了,我再慢慢放。 扯远了,回归正题,这里是 5 道 Hive 的 group by 应用题,大家有兴趣先做着。我会在星球里公布正式答案。 已知表结构如下: ? by 子选项案例。 看这里: Spark SQL 与 Hive 的第一场会师 Spark 高难度对话 SQL Server 后记 周末两三事儿:大数据专栏以及百题SQL学习营

    81520发布于 2019-12-25
  • 来自专栏无题~

    Hive中的数据类型以及案例实操

    @ 目录 基本数据类型 集合数据类型 案例实操 基本数据类型 ? ? 对于Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数。 集合数据类型 ? Hive有三种复杂数据类型ARRAY、MAP 和 STRUCT。 案例实操 假设某表有如下一行,我们用JSON格式来表示其数据结构。 在Hive下访问的格式为 { "name": "songsong", "friends": ["bingbing" , "lili"] , //列表Array, "

    1.2K42发布于 2020-10-10
  • 来自专栏Java知识点

    SpringSecurity6 | HelloWorld入门案例

    1.前言 大家好,我是Leo哥,第一节我们认识了SpringSecurity相关的概念以及相关的的历史,这一节我们就直接上手SpringSecurity,通过一个简单的案例的方式在我们的代码中集成SpringSecurity 2.开发环境 注意:此次SpringSecurity的项目案例的环境如下 JDK17 IntelliJ IDEA 2023.22 SpringSecurity6.0 MySQL8.0+ Maven3.8 3.环境搭建 在搭建我们第一个SpringSecurity的HelloWorld的案例之前,我们首先复习一下在IDEA中搭建一个基础的SprignBoot环境,我们的案例也是基于SpringBoot基础环境之上进行开发以及代码的编写 modelVersion>4.0.0</modelVersion> <groupId>org.javatop</groupId> <artifactId>Leo-springsecurity6- 可以看到,我们成功登录,并直接跳转到我们的hello接口,至此,我们的HelloWorld入门案例完结。

    49810编辑于 2023-11-16
  • 来自专栏Python小屋

    Python花式编程案例集锦(6

    问题描述:输出“水仙花数”。所谓水仙花数是指1个3位的十进制数,其各位数字的立方和等于该数本身。例如:153是水仙花数,因为153 = 1^3 + 5^3 + 3^3 。 #参考代码一,运算符 for num in range(100, 1000): bai = num // 100 shi = num % 100 // 10 ge = num % 10 if ge**3 + shi**3 + bai**3 == num: print(num) #参考代码二,内置函数 for num in ra

    74480发布于 2018-04-16
  • 来自专栏Java知识点

    SpringSecurity6 | HelloWorld入门案例

    1.前言 大家好,我是Leo哥,第一节我们认识了SpringSecurity相关的概念以及相关的的历史,这一节我们就直接上手SpringSecurity,通过一个简单的案例的方式在我们的代码中集成SpringSecurity 2.开发环境 注意:此次SpringSecurity的项目案例的环境如下 JDK17 IntelliJ IDEA 2023.22 SpringSecurity6.0 MySQL8.0+ Maven3.8 3.环境搭建 在搭建我们第一个SpringSecurity的HelloWorld的案例之前,我们首先复习一下在IDEA中搭建一个基础的SprignBoot环境,我们的案例也是基于SpringBoot基础环境之上进行开发以及代码的编写 modelVersion>4.0.0</modelVersion> <groupId>org.javatop</groupId> <artifactId>Leo-springsecurity6- 可以看到,我们成功登录,并直接跳转到我们的hello接口,至此,我们的HelloWorld入门案例完结。

    54520编辑于 2023-11-16
  • 来自专栏小勇DW3

    Windows环境下安装Hadoop+Hive的使用案例

    mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ 找网盘的hadooponwindows-master.zip  链接如下  https://pan.baidu.com/s/1VdG6PBnYKM91ia0hlhIeHg (1)创建配置文件 $HIVE_HOME/conf/hive-default.xml.template  -> $HIVE_HOME/conf/hive-site.xml $HIVE_HOME/conf --修改的配置--> 2 3 <property> 4 5 <name>hive.metastore.warehouse.dir</name> 6 7 <! 在数据库中生成对应的 hive 数据库 ?  启动Hivehive ? -------------------------------------------------------------- 创建表 以及 查询案例 hive上创建表: CREATE TABLE testB

    5.1K20发布于 2019-05-15
  • 来自专栏机器学习/数据可视化

    hive之路6-存储格式和数据格式

    hive存储格式 Hive会为每个创建的数据库在HDFS上创建一个目录,该数据库的表会以子目录形式存储,表中的数据会以表目录下的文件形式存储。 对于默认的defautl数据库,默认缺省的数据库没有自己的目录,default数据库的表默认存放在/usr/hive/warehouse目录下 存储方式 格式 行存储 textfile Parquet 数据压缩快,快速列存取,是hive给出的一种新存储格式。 五、Parquet 一种行存储方式,压缩性能好;同时可以减少大量表的扫描和反序列化时间。 hive数据格式 当数据存储在文本文件中,必须按照一定的格式来区分行和列,并且在行列中自定这些区分符。 hive中默认使用的几个比较少见的字符: 分隔符 描述 \n 换行符对于文本文件来说,每行是一条记录,所以\n 来分割记录 ^A (Ctrl+A) 分割字段,也可以用\001 来表示 ^B (Ctrl+

    86110发布于 2021-03-02
领券