文章/答案/技术大牛

发布

首页视频05_尚硅谷_Hive入门_与数据库的比较

05_尚硅谷_Hive入门_与数据库的比较

2022-12-022022-12-02 16:02:30播放42

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Hive（2019新版）/视频/05_尚硅谷_Hive入门_与数据库的比较.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，那我们继续往下看啊，呃，接下来我们看一下跟这个数据库的一个对比，好对比，因为它也是用了类似语言嘛，所以很容易就把他们俩对比到一块了，其实他们俩一点关系都没有啊，一点关没有，呃，你要是就这样，嗯，应该一点关系都没有，这也。不太对，有一点关系啊，就是说一个说一个类说个就是查询语言类似其他的再没有了啊，其他再没有了，黑个我们看下。他语言方面。查询语言方面，那由于搜狗被广泛应用在数据仓库当中，然后专门针对汉的一个特性设计了类似和语言，啊，仅仅在这方面呢，有一点类似。有点类似，其他的都不一样。第一个来看存中位置，存中位置我们说了have，建立在它之上的所有的数据存在。这个，但是你数据库买Oracle或者其他的一个数据库。什么搜等等这些东西它都是存在什么，更多的都是本地文件系统当中吧，啊，更多的都是本地文件存储为主，是不同的，第二个数据更新方面。
01:11
我们当时还说了数据库呢，你可以做增删改查对吧，但是呢，在汉当中更多的做的是什么查询啊，增和删这是可以的。因为你查的前提得有数据啊，啊肯定能增进来啊，增进来啊这个东西是可以的，更多的呢，都确定好的，然后呢是读多写少，我们也说了一次写入多次读出对吧，哎，读多写少就看了，但是数据库不一样，数据库更多的它是要跟在线进行交互的，对吧？啊接在线业务的，也就是说他要实时的做这种增删改查。啊，实时的做这种增加产是不一样的，好接下来所以。你们麦高级上了上了对吧？啊，那里面是不是有索引啊，主要的作用干什么？加速查询吧啊，对于某些特定的查询的时候，我们是可以加速的，对吧？啊可以加速查询，但是have当中啊，它。
02:12
他见不了索引啊，因为它本身数据量大，就算你把某一列抽出来建索引，那那一列的数据也是非常庞大的吧，对吧，因为数据条数多嘛，它主要体现在条数多，几亿条上一条。啊，几十一条等等的，那你单独的拉一列出来，那么专样还是几十一条啊，又存在另外一个地方，那你扫几十一条数据也不划算啊，所以呢，这个当中呢，他要暴力扫描整个数据集。啊，就是你查询的时候，他只能去扫描所有的数据啊，这个也是他比较慢，你的点上没有没有这个索引啊，没有这索引接下来执行。和真颜值方面。Have呢，它是用的MR来做运算的，但是很多的一个数据库呢，有自己的执行机，像MY。
03:00
咱们用的最多的引擎是哪个in的地B对吧？啊in的这个东西呢，你需要去了解的，那还有呢，它计算引擎呢，就是我们所说的比较慢，那跟下面一个一样的执行延迟。那我有自己的直接是产品擎，你是MA6，那我肯定往数据库要，比你还要什么。要快对吧，其实我们所讲的这个快跟慢也是有前提的，因为人家汉处理的几十亿，什么几百一条数据，你买搜狗。你能处理掉吗？一般到瓶颈在什么时候？百万或者甚至有的好一点千万对吧，到了千万这个级别吸引到什么急剧下降啊，那你要挤一条数据，那可能更难啊，所以呢，他们俩处理的数据规模也不一样啊，数据规模也不一样，但是换句话说，如果说仅仅就十条数据。假如说只有十条数据啊，买个当中十条，还不当中十条。
04:02
那处理速度还是有差别的。对吧，啊们solo还是快很多的，因为你光启动一个MR任务，你想想它启动时间就很慢了嘛，对吧？啊所以呢，执行延迟方面你要知道一下啊，然后可扩展性。扩展方面就是哈多来说，这个东西汉堡是基于哈多堡而言的，那哈多堡是不是能扩展对动，那么那同时能不能扩展note麦呢？可以吧，啊也可以，所以那既然你哈多我能扩展这两个东西，那对于汉姆来说，我存储能力能不能扩展。计算能力呢，是不是也同样的可以扩展了，因为我基于延安来调度的，你有了note manager，我是不是任务就可以放在新机器上运行啊，对吧？所以呢，它无论是存储还是计算都是可扩展到，当然MYS也是，但是MYS呢，它扩展的机群呢。有具体的什么限制，不是说无限扩展，就目前来说，对于哈多零九年它出现了4000台左右的一个航货，其实现在美团我们了解到美团现在基本上在6000台左右。
05:09
他们现在计划，而且是应该是上半年的时候就有计划，因为我们跟他聊的时候发现他们有像那个上万台去发展这个哈集群。啊，像包括360公司也一样，他们的那个内存就集群内存，大家猜想想一下，你觉得能集群的内存能达到多大。对吧，去想象一下啊，集群的内存，而且这种大公司不止一个集群。不止一个集群，你想想看吧，就上千台的一个节点，甚至上万台。上半台，而且他们公司用的都是基本上都是118256这种。服务器啊，很少用64的，比较比较低端的一点服务器，一台服务器128 256可以算。对吧，啊，可以算一下集群的一个内存能达到多大啊，咱们现在呃，虚拟机给个什么444对吧？啊，而且是四个G啊，这些东西就没没法比啊，没法比，所以呢，有很多东西，这个我们在现在的环境下测不出来。
06:11
啊，就包括我们所说的调优就没办法啊要了OK，最后还有一个数据规模，数据规模其实我们也之前从执行啊这块也聊了，那这块列出来八点，那假如说面试问到了，他问你这个跟这个。那有什么区别，或者有什么区别，不要像背书一样背，然后核心的点就是数据量。最核心的是不是处理数据量的问题，大家为什么要有大数据这些框架？就是因为数据量增长了，MY搜狗传统的关心数据库是不是解决不了这个事情呢？所以最根本的问题就是什么？数据量的问题，那引发出来的数据量问题，会导致我汉服这边延迟比较高吧。量量级大呀啊量大呀，买表延迟低。啊，其他的那数据量问题，我数据量大，我要存在一个分布式文件系统当中，而你买搜狗数据量小，你可以存在本地文件系统啊，是不是引出来我们说到的存储不置的不同啊，对吧？哎，是这样子出来的，一点一点的就是其他的还有什么索引呢，额外的一些点，你想答就答，不想答就算了。
07:15
就是我们给大家提供八点，不是说你像背书一样，12345678，这样反而打的不好。啊，反而不好，不是说你面试把这些东西全部背下来了就OK了啊，你就围绕着几个关键点，然后把它阐述一下就行了。这是我们所说的它与这个数据库的一个比较。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Hive（2019新版）

（5/92）

12分57秒

01_尚硅谷_Hive入门_课程介绍

350

15分44秒

02_尚硅谷_Hive入门_概念介绍

340

6分14秒

03_尚硅谷_Hive入门_优缺点

300

7分32秒

04_尚硅谷_Hive入门_架构

350

7分33秒

05_尚硅谷_Hive入门_与数据库的比较

420

15分42秒

06_尚硅谷_Hive安装_安装&初试牛刀

360

13分37秒

07_尚硅谷_Hive安装_从文件系统加载数据

390

9分56秒

08_尚硅谷_Hive安装_安装MySQL

360

9分44秒

09_尚硅谷_Hive安装_元数据存储在MySQL

400

20分9秒

10_尚硅谷_Hive安装_回顾

290

6分37秒

11_尚硅谷_Hive安装_JDBC访问

390

7分40秒

12_尚硅谷_Hive安装_常用交互命令

370

2分38秒

13_尚硅谷_Hive安装_其他命令

360

11分53秒

14_尚硅谷_Hive安装_常见配置信息

380

23分11秒

15_尚硅谷_Hive数据类型_基本&集合类型

330

4分0秒

16_尚硅谷_Hive数据类型_类型转换

360

14分58秒

17_尚硅谷_HiveDDL_数据库的增删改查

360

10分46秒

18_尚硅谷_HiveDDL_建表语法

450

16分46秒

19_尚硅谷_HiveDDL_内外部表

400

16分37秒

20_尚硅谷_HiveDDL_分区表概念&简单使用

370

6分31秒

21_尚硅谷_HiveDDL_分区表基本操作

330

10分27秒

22_尚硅谷_HiveDDL_分区表注意事项

380

17分11秒

23_尚硅谷_HiveDDL_修改表

350

5分25秒

24_尚硅谷_HiveDML_使用Load方式加载数据

360

11分6秒

25_尚硅谷_HiveDML_使用insert&as select加载数据

280

7分23秒

26_尚硅谷_HiveDML_使用Location加载数据

440

17分23秒

27_尚硅谷_HiveDML_回顾

440

6分55秒

28_尚硅谷_HiveDML_导出数据到文件系统

330

9分39秒

29_尚硅谷_HiveDML_导出数据的其他方式

400

1分54秒

30_尚硅谷_HiveDML_清空表

430

7分43秒

31_尚硅谷_Hive查询_基础查询

390

13分29秒

32_尚硅谷_Hive查询_Where&判断式

380

20分23秒

33_尚硅谷_Hive查询_Join

400

4分7秒

34_尚硅谷_Hive查询_全局排序Order By

390

15分52秒

35_尚硅谷_Hive查询_排序

400

3分44秒

36_尚硅谷_Hive查询_4种排序总结

390

14分20秒

37_尚硅谷_Hive查询_分桶表创建&导入数据

440

8分3秒

38_尚硅谷_Hive查询_分桶表抽样查询

360

5分26秒

39_尚硅谷_Hive函数_常用函数空值赋值

370

8分54秒

40_尚硅谷_Hive函数_常用函数时间类

400

12分35秒

41_尚硅谷_Hive函数_常用函数Case&if

320

19分29秒

42_尚硅谷_Hive函数_常用函数行转列

410

9分57秒

43_尚硅谷_Hive函数_常用函数列转行

370

20分32秒

44_尚硅谷_Hive函数_窗口函数需求一

340

15分58秒

45_尚硅谷_Hive函数_窗口需求二&三

280

10分29秒

46_尚硅谷_Hive函数_窗口函数需求四

310

42分37秒

47_尚硅谷_Hive函数_回顾

310

16分40秒

48_尚硅谷_Hive函数_窗口函数回顾

370

9分39秒

49_尚硅谷_Hive函数_窗口函数二

410

10分46秒

50_尚硅谷_Hive函数_排名函数

400

21分23秒

51_尚硅谷_Hive案例_课堂练习（一）

390

11分30秒

52_尚硅谷_Hive案例_课堂练习（二-1）

290

17分9秒

53_尚硅谷_Hive案例_课堂练习（二-2）

380

17分57秒

54_尚硅谷_Hive案例_蚂蚁森林（1-1）

390

20分54秒

55_尚硅谷_Hive案例_蚂蚁森林（1-2）

460

32分52秒

56_尚硅谷_Hive案例_蚂蚁森林（2）解法一

350

13分31秒

57_尚硅谷_Hive案例_蚂蚁森林（2）解法二

450

18分52秒

58_尚硅谷_Hive案例_蚂蚁森林（2）解法三

360

9分33秒

59_尚硅谷_Hive函数_回顾

360

7分51秒

60_尚硅谷_Hive函数_系统函数查看

390

6分52秒

61_尚硅谷_Hive函数_自定义函数介绍

360

13分30秒

62_尚硅谷_Hive函数_自定义UDF

390

16分28秒

63_尚硅谷_Hive函数_自定义UDF（2）

400

8分20秒

64_尚硅谷_Hive函数_自定义UDTF（分析）

310

12分58秒

65_尚硅谷_Hive函数_自定义UDTF（初始化方法）

310

8分9秒

66_尚硅谷_Hive函数_自定义UDTF（核心方法）

510

3分46秒

67_尚硅谷_Hive函数_自定义UDTF（打包测试）

420

21分31秒

68_尚硅谷_Hive压缩存储_Snappy压缩方式

360

6分16秒

69_尚硅谷_Hive压缩存储_行存储&列存储

340

19分59秒

70_尚硅谷_Hive压缩存储_Text&ORC&Parquet文件格式对比

360

5分4秒

71_尚硅谷_Hive压缩存储_存储格式&压缩方式结合使用

370

7分55秒

72_尚硅谷_Hive优化_Fetch抓取&本地模式

400

23分0秒

73_尚硅谷_Hive优化_大表Join大表&小表

450

3分45秒

74_尚硅谷_Hive优化_MapJoin

270

16分25秒

75_尚硅谷_Hive优化_回顾

310

13分47秒

76_尚硅谷_Hive优化_Group By

380

3分26秒

77_尚硅谷_Hive优化_笛卡尔积&行列过滤

400

18分40秒

78_尚硅谷_Hive优化_动态分区

350

12分25秒

79_尚硅谷_Hive优化_分区分桶&MR

340

17分17秒

80_尚硅谷_Hive优化_9.5-9.10

340

12分11秒

81_尚硅谷_Hive案例_谷粒影音需求分析

350

7分43秒

82_尚硅谷_Hive案例_MRETL分析

310

10分59秒

83_尚硅谷_Hive案例_MR ETL Mapper

270

16分22秒

84_尚硅谷_Hive案例_MR ETL清洗数据逻辑

420

10分59秒

85_尚硅谷_Hive案例_MR ETL Driver

310

12分26秒

86_尚硅谷_Hive案例_谷粒影音数据准备

290

7分29秒

87_尚硅谷_Hive案例_谷粒影音需求（一）

330

8分31秒

88_尚硅谷_Hive案例_谷粒影音需求（二）

340

9分54秒

89_尚硅谷_Hive案例_谷粒影音需求（三）

410

24分46秒

90_尚硅谷_Hive案例_谷粒影音需求（四）

340

10分19秒

91_尚硅谷_Hive案例_谷粒影音需求（五、六&八）

310

11分52秒

92_尚硅谷_Hive案例_谷粒影音需求（七）

360

05_尚硅谷_Hive入门_与数据库的比较

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐