00:00
好,那接下来我们看一下这个文件的一个存储格式。啊,文件存储格式,那这个什么意思呢?刚才我们讲的是压缩,现在是文件存储的格式啊,文件存储格式第一个,首先它肯定支持这个太克,这个没得聊啊,我们一直用的就是它吧,它除了之外还可以。序列范围跟重要的,我们要关注这OC格式啊,其实它是什么东西,它就是跟我们这个TS啊是一起的东西。还有这里面有一个他。还有一个帕啊,这两个东西啊,在生产环境当中相对来说用的比较多一点,而且Spark它默认的一个格式就是这个。它默认的读取的一个方式的这个啊,就是怕贝啊,就怕贝这个格式啊,好,那我们看一下这个里边呢,我们textile跟这个orc旁这三者最核心的区别就体现在这。一个是列存储,一个是行存储。
01:01
我们所讲的T,它是航存还是列?有人知道吗?行存储。它是行式存储,那这个行跟列是什么意思呢?来看一下这个啊。你看这个图。左边是一张逻辑表。对吧,正常的有ABC3个列,每个列里面呢有五个数据。如果数据让你接下来看这。这是一种存储方式,这也是一种存储方式,看出来他们俩有什么不同的吗?那他是把A1B1C1这个东西给他。存来了,接下来呢,A2B2C2,然后呢。是不是把一行存完了之后,再接着存第一行啊,而它呢,是把列存完了之后再存一行,那好,那我们现在知道这两种方式,那这两种方式各有什么好处呢?就是假如说按行存,按列存,大家能不能发现呢?
02:15
如果说你经常查的是ID逗号,那。能听懂列存储更好了,因为一次性我就能拿出来什么这一列的数据。但是如果你经常做的是C,然后from一个什么一个什么内容,Will ID大于100。那是不是行存储啊,所以他们俩呢,各有优缺点,不是说哪一种绝对的优势,如果说真有哪一种绝对的优势,那他还会选用默认的什么T表,还有其他的支持其他的格式吗?就不会了,那我就绝对优势了,其他的还有必要用吗?所以呢,它各有优缺点啊,各有优缺点它要存的啊,但是实际上我们因为我们画图啊,只能画成这样,但实际上大家知道真正的在资本或者说在那个。
03:11
整个上面磁存的时候,它有相对的一个磁道。对吧,啊,整个磁盘上面有磁道,但不是说真的挨在一块,真的挨在一块啊,但是呢,它是尽量的挨在一块之后呢,它会虚指更方便一点,就是如果说航存的话。你插进一行数据的时候,它寻址会方便一点,如果说一列存储它同样的干什么,寻址啊,寻址它不是说真的磁盘,不是我们想象的,哎,你要存个数据了,这一堆这一块都给你吧。不是的啊,不是的啊,这个涉及到那个物理层那些东西了,大家好多同学不是那个,呃,计算机专业转过来的啊,或者说就算有的是计算机专业的,有的学校呢,他也不学什么硬件东西啊,他也不学硬件东西,你们大学呃,老师让你拆电脑,就把自己电脑狂拆是吗?对呀,我们那就是啊,就是让你拆,拆坏了,反正也不是啥的,对吧?啊,让你拆电脑多看看里面的东西,其实嗯,光就这个东西拆开也看不到什么,说实话啊,底层的那些东西还是不行,还得学啊,那些原理啊,就是微机原理嘛,对吧?啊,微机原理的东西,磁道啊,磁针啊,指针啊,这些东西你们学那个。
04:26
他多把那个什么128兆的那个时候,应该提到过类似的一个对寻址时间对吧?啊时间这该什么样子啊,就是类似于这样的,就是就是这个意思,行存储呢,你只要再找到其中一个值,其余的值都在相邻相邻地方啊,所以说呢,行存储长询速度啊,更快一点,就是你要一行一整行数据的时候,对吧,如果说你是列存储的时候,因为你是按列这一块存储的啊,当你要访问的是少数几个字段。就像我们所说的,你有50个存段,但是你经常写的是CW的ID,动画内耐选用什么列存储更好一点啊,列存储更好一点啊,是这意思,那这里边呢,我们看到的这个text file跟fair它都是基于行存储的,Orc呢跟这个它呢都是基于什么?
05:13
裂神主的啊,这是航存跟列存,大家稍微的有个音响啊,稍微等一下他能这样呢,我们就不聊了啊,它默认的呢,它不会给我们做压缩,你可以结合着压缩方式去干什么去使用啊,这种呢是我们比较熟的,刚才我们不是text file结合了什么。来用的吧,加上来用的啊,注意这个压缩它是针对于文本文件压缩的。能听懂,他可以对OC进行压缩。是不是感觉有点混了,这个时候那刚才明明看到的那个文件名字叫什么点,你告诉我它是一个fair,它真的就是一个材克的啊,只不过说压缩了啊压缩了。所以说他们两个一定要从现在开始把它们俩分开到文件格式,压缩方式。
06:05
啊,不要看着点s.STEM文件,它就不是什么TST了,它是对TST文件加缩的,能听懂。对吧,啊,这块要注意一下啊,这个开我们把这个写一下啊。
我来说两句