00:00
啊,对了,优化之前呢,应该还有个问题这个。就是这个内容要注一下,嗯,这个数据之前我们说了C格式我们测一下八兆变成2.8兆,对吧?啊,18兆变成2.8兆,那这个时候呢,我们来看一下。来orc格式还是一样的,但是我加了一个属性叫什么。压缩那。压缩呢,然后呢,同样的还是那个手机搞进来,那说明什么问题。重对吧,说明什么问题啊。对orc格式呢,它自带什么压缩啊,它自带压缩啊,我们注意一下,然后呢,也就是说它自带的这个压缩啊。
01:05
叫什么东西呢,在这。啊,他默认的采用。这个是不压缩啊,这个是不压缩。然后我们看一下这个导完了,导完之后呢,我们来看一下这个数据集,其实已经知道这个7.7兆对吧。先七兆啊,这个没问题,然后我们要干什么事呢?就是伸长环中我们得知道,嗯,你是OC没问题,但是我想用一下对吧,那其实就这样的。这个多as是来决定什么的。存储格式的,然后还加一个TL叫table加一个orc.comp压缩方式啊,指定压缩方式,那这个地方呢,就是指定了什么。存储格式为压缩方式为压缩方式,然后呢,我们把这个数据再一下一下,最后呢,它呢比不压缩的一个方式肯定要好一点吧,上一个。
02:10
2.8。还记得吧,这个数据啊,是因为orc默认的,它采用的是Z这种方式,压缩比stab还要小,但是这个Z呢,不是说你手动的可以去用的,它是orc里面自带的。能听懂啊,OC比的,也就是说如果真的我们要用OC格式的时候,你需要再额外的给它添加一个压缩方式吗?可以不需要了吧啊,简单的用orc格式就够了啊,就够了,三呢就可以不用了啊,因为这个数据集已经告诉我们了,我们把这个数据先看一下啊,它呢是3.8兆,之前我们看到光只用ORC的时候是2.8兆吧啊,同样的数据集还是18兆这个数据集啊,所以呢,这个就能知道啊,它呢是OK了啊,支持sta压缩啊,两个也能结合在一块用,但是呢,你真的这样的时候,我们可以不用sta啊,因为它默认的这个是它磁带表,你不是说那有同学可能在想这个要求那么好,对吧,我还都会用那个。
03:08
有这种方式吗?有那个拉斯罗有还有哪些?G度。G g z two等等这些东西吧,啊,但是没有提到这个,这个是这个内容的啊,这个内容好,最后呢,我们总结一下,就是说一般的选用的是orc,如果说你不用OC格式,你想选用压缩的话,选用这两种吧,啊选用这两种啊生产环境当中呢,确实也是这样,这个东西包括这两个用的都是比较多的啊,用的比较多的是这意思啊。因为这个它你虽然这个压缩比再高,呃,毕竟它还是以劣势存储的吧,啊劣势存储假如说我们还是这对于这个列整个一行扫描的要多一些的话,那还是怎么存好。T file加上压缩法,那也就人说,那你读取读取数据的时候,你不是不让用C的心,你都是用那个C的字段嘛,那我OC肯定合适啊。
04:07
但是你要注意一个点,我们正常的数据呢,从一张表导到另外一张表,里边走的是MA6 ma6怎么读出去。按行读吧,能听懂对吧?啊主要看也就是说最终的结果,假如说这个数据我不想再做运算了。就简单的这个数据呢,就在这做c select的IDC name这种方式查询,最后我们可以选用什么orc,从外部表导到最终那张表里边就有一个orc形式,对吧,如果说这个是一个中间表。当前这张表是一个中间表,那我们还是开启压缩这种模式,因为作为中间表,你接下来是不是还要对这张表数据进行分析啊,对吧,那我们你就不要用括号C了,因为它是列存的,你你列存行读肯定能读。但是效率就会什么,就会低一些啊,效率就会低一点,是这个意思啊,要注意一下啊。
05:03
这个是。
我来说两句