搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏大数据成神之路
Hive SQL经典优化案例
HiveSQL经典优化案例一： 1.1 将要执行的查询(执行了 1个多小时才出结果)： SELECT dt as DATA_DATE,STRATEGY,AB_GROUP,SOURCE, count 1.4 先看每个字段将会有多少分区（因为 Hive 表分区也不宜过多，一般一个查询语句涉及到的 hive分区应该控制在2K内) jdbc:hive2://ks-hdp-master-01.dns.rightpad 新建分区表，并将原表数据插入新表： show create table dwb_v8sp_tmp.base_report_bystrategy_byab_source_column_zkl; jdbc:hive2 HiveSQL经典优化案例二：问题描述：一个复杂的SQL，查询执行一段时间后报错：基本上是查不出来; 分析函数对于大表来说不是 hive的强项，这个时候我们将其分解成很多子集，并且合理利用 hive HiveSQL经典优化案例三：如下SQL，用到了 PERCENTILE_APPROX 函数，问题描述：如下SQL，用到了 PERCENTILE_APPROX 函数，个人初步分析认为：由于用到该函数的次数太多
1.8K30发布于 2020-09-27
来自专栏机器学习/数据可视化
hive之路7-hive之DDL操作
Hive的DDL操作 Hive是一种数据库技术，可以定义数据库和表来分析结构化数据。主题结构化数据分析是以表方式存储数据，并通过查询来分析。创建了数据库之后，在HDFS上的存储路径默认为/usr/hive/warehouse/*.db具体语法为： hive> create database|schema [if not exists] database_name 默认地址是/user/hive/warehouse/db_name.db/table_name/partition_name/… 0: jdbc:hive2://localhost:10000/default 设置方法：hive.exec.dynamic.partition.mode=strict/nonstrict 0: jdbc:hive2://localhost:10000/default> set 表的多种导入数据方式从本地系统上导入数据（假设有数据worker.txt）先在hive中创建表将本地的数据导入 -- hive中创建表 hive> create table user #
78820发布于 2021-03-02
来自专栏Lansonli技术博客
2021年大数据Hive（十二）：Hive综合案例！！！
Hive综合案例本案例对视频网站的数据进行各种指标分析，为管理者提供决策支持. job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(NullWritable.class); //本案例中没有 0:1);; } } 四、准备工作 1、创建 hive 表创建表：youtubevideo_ori，youtubevideo_user_ori 创建表：youtubevideo_orc
2K10发布于 2021-10-11
来自专栏阿年的数据梦
Hive常用函数案例实操
查询顾客的购买明细及月购买总额 7. 将每个顾客的cost按照日期进行累加 8. 求明细，以及每个月有哪些顾客来过 9.
1.2K50编辑于 2022-11-02
来自专栏Jed的技术阶梯
Hive案例01-行列转换
介绍Hive查询中的行列转换的用法 1. 案例一：求数学成绩比语文成绩好的学生的ID (1) 需求分析现有 hive 表 score, 内容如下: hive> select * from score; 1 1 yuwen 43 2 t2中的数据: 1 43 55 2 77 88 3 98 65 --(3) SELECT sid FROM t2 WHERE shuxue > yuwen; 结果: 1 2 2.案例二：销售表的行列转换 (1) 需求现有hive表sales，内容如下： hive> select * from sales; sales.y sales.season sales.sale 1991 案例三：学生成绩表的列转行 (1) 需求有如下学生成绩表score： id sname math computer english 1 Jed 34 58
2.4K10发布于 2018-09-13
来自专栏Jed的技术阶梯
Hive案例02-数值累加
---- 介绍Hive查询中数值累加的思路的方法 1. 需求分析现有 hive 表 record, 内容如下: hive> select * from record; OK A 2015-01 5 A 2015-01 15 B 方法二：使用Hive窗口函数max()、sum() select userid, month, count, sum(count) over(partition by userid order by
2.7K30发布于 2018-09-13
来自专栏踏歌行的专栏
Hive-1.2.1_05_案例操作
数据准备相关数据 1 [yun@mini01 exercise]$ pwd 2 /app/software/hive/exercise 3 [yun@mini01 exercise]$ ll 导入数据 7 INFO : Loading data to table exercise.course from file:/app/software/hive/exercise/course.dat 6 7,y 7 8,u 8 [yun@mini01 exercise2]$ cat /app/software/hive/exercise2/b.dat 9 2,bb 10 3,cc 11 7, | 7 | y | 7 | yy | 8 +-------+---------+-------+---------+--+ 9 3 rows selected (17.714 | 7 | y | 7 | yy | 8 | NULL | NULL | 9 | pp | 9 +-------+---------+
52620发布于 2020-10-15
hive导入导出实操案例
Import 数据到指定 Hive 表中注意：先用 export 导出后，再将数据导入。 hive (default)> import table student2 partition(month='201709') from '/user/hive/warehouse/export/student '; 2.数据导出Insert 导出 (1)将查询的结果导出到本地 hive (default)> insert overwrite local directory '/opt/module/datas /export/student' select * from student; (2)将查询的结果格式化导出到本地 hive(default)>insert overwrite local directory .txt; Hive Shell 命令导出基本语法：（hive -f/-e 执行语句或者脚本 > file） [hadoop@hadoop102 hive]$ bin/hive -e 'select
31310编辑于 2025-12-23
来自专栏不温卜火
Hive快速入门系列(7) | Hive常见的属性配置
本次博主为大家带来的事Hive常见的属性配置。希望能够帮助大家。一. Hive数据仓库位置配置 1. [bigdata@hadoop001 hive]$ vim /opt/module/hive/conf/hive-site.xml // 复制下面的文档 <property> <name>hive.cli.print.header Hive运行日志信息配置 1．Hive的log默认存放在/tmp/atguigu/hive.log目录下（当前用户名下） 2．修改hive的log存放日志到/opt/module/hive/logs 在hive-log4j.properties文件中修改log存放位置 hive.log.dir=/opt/module/hive/logs ? 3. 例如： [bigdata@hadoop001 hive]$ bin/hive -hiveconf mapred.reduce.tasks=10; 注意：仅对本次hive启动有效查看参数设置： hive
1.1K10发布于 2020-10-28
来自专栏Jed的技术阶梯
Hive案例04-员工部门表综合案例
数据说明 (1) dept表 hive> select * from dept; # deptno(部门编号) dname(部门名称) loc(部门所在地区) 10 SALES CHICAGO 40 OPERATIONS BOSTON (2) emp表 hive hiredate) as min_date from emp) tmp on emp.hiredate = tmp.min_date; # 结果 SMITH 1980-12-17 # 注意，以下SQL在hive 结果 BLAKE 2850.0 CHICAGO SCOTT 3000.0 DALLAS FORD 3000.0 DALLAS KING 5000.0 NEW YORK (7)
1K51发布于 2018-09-13
来自专栏有关SQL
Hive 入门 Group By 全案例【附代码】
不明就里的读者可以看上一篇： Hive 的入门级 Group By 全案例昨晚发文之后，有读者陆陆续续在星球发问了，脚本到底该怎么写？环境： Hive: 2.7.7 Oracle SQL Developer Cloudera JDBC Driver 案例 - 1 ： Group by 的常规化应用 select schema_id image 案例 - 2 ： Group by 之 Grouping Sets 应用 select schema_id , type_desc , count(object_id 案例 - 3 ： Group by 之 with cube select schema_id , type_desc , count(object_id) as object_count type_desc grouping sets((schema_id,type_desc),schema_id,type_desc,()) order by schema_id ,type_desc 案例
1.3K20发布于 2019-12-25
来自专栏Jed的技术阶梯
Hive案例03-最高气温
题目要求现有hive表temp，其中只有一个字段(temp_record string)，每一行代表某一天的气温，比如，2014010114代表，2014年1月1日的气温为14度，表中数据如下： hive 2010010216 2010010317 2010010410 2010010506 2015010649 2015010722 2015010812 2015010999 2015011023 要求：用hive
50030发布于 2018-09-13
来自专栏ShowMeAI研究中心
图解大数据 | 实操案例-Hive搭建与应用案例
1）下载Hive 安装Hive过程可以参考官方文档：https://cwiki.apache.org/confluence/display/Hive/GettingStarted。 Hive会自动加载 conf/hive-site.xml 配置文件，官方在 conf/hive-default.xml.template 提供了一个模板文件，里面是 Hive 加载不到 hive-site.xml /hive-3.1.3# cat conf/hive-site.xml <? 现在命令行使用Hive命令，将会自动根据 hive-site.xml 连接到 metastore 服务，运行Hive命令做一下测试： root@ubuntu:~/bigdata/hive-3.1.3# 以上就是Hive的完整搭建过程，小伙伴们就可以欢快地开始使用Hive了。 2.Hive应用案例本案例对视频网站的数据进行各种指标分析，为管理者提供决策支持。
1.1K31编辑于 2022-03-09
来自专栏Jed的技术阶梯
Hive案例05-学生成绩表综合案例
数据说明 (1) student表 hive> select * from student; # 学生ID 学生姓名性别年龄所在系 # sid sname 95013 Matthew male 21 CS 95014 Nicholas female 19 CS ...... (2) course表 hive Math 3 English 4 Physics 5 Chemistry 6 Biology (3) sc表 hive <1> 查询全体学生的学号与姓名 select sid, sname from student; <2> 查询选修了课程的学生姓名 select distinct sid from sc; (2) hive 4 95006 6 95007 4 95011 4 95012 4 95013 4 95015 4 95018 4 95019 5 95022 4 */ (3) hive
1.5K40发布于 2018-09-13
来自专栏有关SQL
Hive 的入门级 Group By 全案例
熟悉 sql server 一定不陌生，其实就是从 sql server 导了一张系统表 sys.objects 到 Hive 里面。具体方法可以参考这里：使用 Sqoop 将 30W+ MySQL 数据导入 Hive 这是 Hive 的第一篇公开文，讲解 group by 用法。其余的文章存着，大家热情起来了，我再慢慢放。扯远了，回归正题，这里是 5 道 Hive 的 group by 应用题，大家有兴趣先做着。我会在星球里公布正式答案。已知表结构如下： ? by 子选项案例。看这里： Spark SQL 与 Hive 的第一场会师 Spark 高难度对话 SQL Server 后记周末两三事儿：大数据专栏以及百题SQL学习营
81520发布于 2019-12-25
来自专栏chimchim要努力变强啊
hive 计算连续7天登录的用户
用户每天可能不止登陆一次，将登录日期去重，取出当日登陆成功的日期，row_number()函数分组排序并计数 2.日期减去计数得到值 3.根据每个用户count(值)判断连续登陆天数 4.最后取连续登陆天数大于等于7天的用户 db_test.user_log_test where status=1 ) a where rn=1 ) b)c group by uid,date_rn 4.最后取连续登陆天数大于等于7天的用户 db_test.user_log_test where status=1 ) a where rn=1 ) b)c group by uid,date_rn having count(1)>=7 5.结果（只有用户3连续登陆超过7天）或者用窗口分析函数更快查询出来 –所有用户信息 select * from ( select uid ,datestr, lead(datestr group by uid,datestr ) as b where date_sub(cast(b.datestr as date),6)=cast(b.date1 as date); 统计连续登陆7天的用户个数
2.1K10编辑于 2022-11-13
来自专栏迁移内容
CentOS7下Hive的安装配置
0、安装前提安装配置jdk与hadoop 安装配置好mysql 1、下载上传下载hive，地址:http://mirror.bit.edu.cn/apache/hive/ 上传到指定位置scp apache-hive -3.1.2-bin hive-3.1.2 3、修改环境变量/etc/profile: vi /etc/profile #hive export HIVE_HOME=/usr/local/apps/hive -3.1.2 export PATH=$PATH:$HIVE_HOME/bin export HIVE_CONF_DIR=/usr/local/apps/hive-3.1.2/conf sources /lib下 7、创建Mysql下的hive数据库 create database hive; mysql> create database hive; Query OK, 1 row affected 包的版本问题，解决方法参考这里 8、测试键入hive create database hive_1; hive> create database hive_test; OK Time taken: 0.156
1.5K50编辑于 2022-12-01
来自专栏无题~
Hive中的数据类型以及案例实操
@ 目录基本数据类型集合数据类型案例实操基本数据类型 ? ? 对于Hive的String类型相当于数据库的varchar类型，该类型是一个可变的字符串，不过它不能声明其中最多能存储多少个字符，理论上它可以存储2GB的字符数。集合数据类型 ? Hive有三种复杂数据类型ARRAY、MAP 和 STRUCT。案例实操假设某表有如下一行，我们用JSON格式来表示其数据结构。在Hive下访问的格式为 { "name": "songsong", "friends": ["bingbing" , "lili"] , //列表Array, "
1.2K42发布于 2020-10-10
来自专栏小勇DW3
Windows环境下安装Hadoop+Hive的使用案例
-5.1.26-bin.jar（或其他jar版本）放在hive目录下的lib文件夹 3.配置hive环境变量，HIVE_HOME=F:\hadoop\apache-hive-2.1.1-bin 4.hive （1）创建配置文件 $HIVE_HOME/conf/hive-default.xml.template -> $HIVE_HOME/conf/hive-site.xml $HIVE_HOME/conf --修改的配置--> 2 3 <property> 4 5 <name>hive.metastore.warehouse.dir</name> 6 7 <! 在数据库中生成对应的 hive 数据库 ? 启动Hive：hive ? -------------------------------------------------------------- 创建表以及查询案例 hive上创建表： CREATE TABLE testB
5.1K20发布于 2019-05-15
来自专栏全栈程序员必看
【shell案例】CentOS7安装MySQL脚本案例
前言此脚本为一个学员在工作中遇到在centos7中安装mysql的问题，于是安排一个学员花了15分钟写了一个脚本，可以正常安装使用。 /bin/bash file=mysql57-community-release-el7-10.noarch.rpm mkdir -p /app cd /app if [ -f "$file" ];then 文件已存在，无需下载" else echo "正在下载所需源rpm包请稍后" wget https://dev.mysql.com/get/mysql57-community-release-el7-
66520编辑于 2022-09-01

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Hive SQL经典优化案例

hive之路7-hive之DDL操作

2021年大数据Hive（十二）：Hive综合案例！！！

Hive常用函数案例实操

Hive案例01-行列转换

Hive案例02-数值累加

Hive-1.2.1_05_案例操作

hive导入导出实操案例

Hive快速入门系列(7) | Hive常见的属性配置

Hive案例04-员工部门表综合案例

Hive 入门 Group By 全案例【附代码】

Hive案例03-最高气温

图解大数据 | 实操案例-Hive搭建与应用案例

Hive案例05-学生成绩表综合案例

Hive 的入门级 Group By 全案例

hive 计算连续7天登录的用户

CentOS7下Hive的安装配置

Hive中的数据类型以及案例实操

Windows环境下安装Hadoop+Hive的使用案例

【shell案例】CentOS7安装MySQL脚本案例

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐