00:00
好,前面呢,我们是把这个函数这块就搞定了,其实截止到现在为止,呃,我们比较重要的东西都讲的差不多啊,比较重要的东西后面这一堆呢,你说它重要吧,重要,你说它不重要,它也不重要,就这么聊,这个东西呢,后面什么压缩啊,还有这个企业调优啊,这个东西面试的时候非常重要,但是工作的时候你知道一些基础点,尽量的不要写特别low的那个,So出来就OK了,因为我们也找他们聊了,他说调优这个事情吧,是好,但是吧,你想想看,我天天这个需求的,搞不定我调啥优呢,对吧,老板给我布置的任务我都没做完呢,你告诉我调优。你让我查一个结果,我结果都没出来,我有我有有地方去调优网对吧?啊,所以呢,更多的这个东西呢,在面试的时候用,现在呢,我们会带着大家去过一遍,到面试之前,大家要把这个东西找回来,好好去看一看,因为面试的时候他就爱问这些东西啊,就爱问这些东西最恶心的是什么,呃,笔试题做circle考F算,他在面试题里边还问circle考,问完了之后你你辛辛苦苦的花了。
01:15
十几分钟,20多分钟对吧,写出来了,然后他再问一句,你这个有什么优化方案吗?对吧,不用写了,那有同学就想到我开始不写太好了,对吧,第二次人家一问就写,人家再来一句,你刚开始怎么不这么写,所以说他问到这种问题的时候就说就就截止到目前为止,你能想到的最好的方案就这样了,对吧,你就说一下这个事就行了,他一般都会去问一下,这两个都会问一问,习惯性的会问一问,啊习惯性的问一下,好,然后我们一点一点往后看啊,这块东西呢,大家要听一听,有的东西呢,要操作的,大家也要去操作一下啊,去操作一下有个印象,因为你自己手过一遍呢,印象会深一些。
02:05
第一个就是我们看到的压缩和存储,这是两个事情啊,压缩指的是拉斯罗斯耐这一套,存储大家目前接触到的应该是PD。Text文本文件对吧?呃,TSVCSV有接触过吗?手机号TV是以杠T分割的。CSV呢是以逗号分割的啊,有很多底层存储呢,用的是CSV的一种格式啊,就是逗号分割的,而且呢,这种格式啊,我们来看一下建一个那个。测试随便开来看一下。1CE有人知道对吧啊1CE啊对CEC式很多那个,那我们看一下他是不就改个注册名嘛,对吧?点怎么样的,我一逗号分割的ABC看见没,他底层用逗号分割的,我把关掉,然后我直接干什么打开,我不用千万不能点打开了对吧?啊那个打开的比较细节的对吧?啊,这个是以逗号分割的啊,就是我们聊的现在聊的这个事情啊,要注意一下。
03:18
存储啊,它指的是文件格式,我们未来还要这里边呢,还会讲几种,在到后面学范,还有其他的一个存储的时候还会有啊,包括h base,它这存储框架,它里边也有自己独特的一个存储格式啊,两个要分开,因为学到后面的时候,我发现在在项目的时候,有很多人这两个东西分不开,什么sta,还有那个orc这个东西它分不开,分不清啊,分不清啊一个。你们之前讲过那个耐拉斯螺,而且我们也提了一下,这两个呢,在生产环境当中用的比较多的一个耐一个拉斯螺,对吧?啊,主要得益于它的一个压缩比啊,压缩效率啊都比较高啊,但是呢,塞比这个东西啊,也不支持切割啊,拉子螺支持切割,所以这两个东西呢,用的比较多,因为下面这些东西啊。
04:05
这一套一直到这个。到这这个是编译啊,其实现在问编译的比较少,早期的时候还用还会问句编译啊,因为那这个东西啊,它不是默认自带的。他让你额外去安装嘛,额外安装的时候就要去编译,就像你们用的哈,不管编译的上是不是我们给大家编译好的那个。对吧,没编译的时候你用起来呢,他每次你敲一个命令,他都会报一个警告,说你这个平台没有编译,让你去编译啊,让你去编译啊,这个呢现在其实很少问了,因为这个东西网上现在已经用特别多了,早期问的比较多,主要是因为服务器质量什么都比较差,它编译呢很容易出问题,而且早期编译的时候就好多,一个加班能编译个一两天都是有可能的。能编译个一两天就一直在跑啊,编译个一两天,现在的情况下,呃,拿一个服务器去编译一下服务器一两个小时就能搞定的事情,网络OK的情况下,他要联网。
05:04
他往外下载很多东西啊,他要下载很多东西,这个编译的一个过程就类似于我们打架包啊。我们刚才不在A呀里面打架包吗?人家这个哈多网是不是人家写好的一个项目啊。对吧,那写好的项目成型了,我现在重新编译指标,什么意思呢?我想给项目员增加额外的功能,那你要重新打架包啊,这个架包呢,需要在linuxs上去重新打架包,它依赖于一个环境,首先就说了这块要干什么事。要联网啊,估计呢,咱们这应该是编译不起来啊,一般的会正常的会报错,然后就算不报错的话,时间很久啊,时间很久之前在课堂上编译过那个哈多的一个连码,编译了很久,然后还没编译起来,没编出来,还是在课下啊专门录的视频哈多视频,你们现在哈多的时候不仅没有带着你们去编译了吧,对吧?啊没有变,因为现在呢,都不问了啊,都不问了。啊呃,那如果说我们假如说编译好了对吧,编译好了之后呢,可以用一下,其实我们有一个内容啊,嗯,我们编译好了,大家可以拿过来简单用一下。
06:11
在资料里面应该有一个这。这个。源码这个是一个源码对吧,啊变源码支持等一下。没有给他提供嘛,到时候我找一下啊,这个就是这个,这个是编译好的,我们之前编译的,编译好的这是比压缩的,那有同学在想我是不是要重发一个,不用不要,我到时候等会呢,我会带着大家去用一下,不用重新搭了,不要不要着急删机群,好吧,不要那么激动,有办法从那里边把几个配置文件呢,给他拿过来就行了啊,给他拿过来就行了啊,不用我们去再编译,重新重新搭,假如说我们现在是一个编译好的用法。这一套这两个表应该还熟悉吧,啊,包括这三个表对吧,是从哈多那边拿过来的,也就是说哈多这边呢,你可以配置。
07:06
啊,你可以配置,那有时候我们哈多已经启动了,不想配置,包括这个中间对吧,这个Co啊哪块去配置,这个是哈多里的东西,我们就不聊了,我们要聊什么东西呢?这样我哈多已经开启了。你再要说改一下配置文件,这也不太合适了,你是不要关了,然后重新加载啊,我们要讲的是什么呢?在have当中来开启什么。开启压缩,然后呢,而且一样的啊,这块首先你要开启have的一个整个的一个压缩功能,然后我们说了在MR当中有哪几块可以用的说。Map输出和最终的输出吧,啊最终的输出你不要说reduce的输出啊,应该是out put mark的输出对吧,就类似于你在那个driver里面写的叫map outp key,好map outp value,没有看到reduce out key跟reduce outp value吧,啊它是最终的,它是属于auto form的啊,所以呢,它有两块啊,它是两块,当然它可以读什么压缩文件啊,可以读压缩文件,但是呢,在mmr过程当中呢,有两块,这块呢,我们可以先开启这个内容,但是开启之前我们就需要带着大家把这个什么我们当前这个哈宝让它支持四年级压缩才行呢。
08:26
对吧,啊,要让它支持耐压缩,OK,那我们把它打开一下啊,这个呢先退掉,因为你要支持耐压缩了,最好呢,把集群先关闭一下。动啊,这边让它关着,这边我们干什么事呢?来这个叫我里边支持那比压缩的函度对吧,给它解压。一加。对,就解压到本地。
09:06
这个减速有点慢是吧。三兆每秒。你说他一下,说他三兆他还三四是吧。你看你又说他,他又被告。要刺激他,再刺激他,停了是吗?完了是吗?写完了之后,你你进到那个,进到目录里边,然后进到那个立。里面有一个native,那里边不有很多点so文件吗?你看到有点文件了吗。看啊好,这个里边有一个力对吧,那个这里边不有那个吗。对吧,其实你整个刚才我们看到那个编译的过程乱七八糟的一堆,对吧,还要装备呗,还要装那个JC加加,因为它底层的这些什么点O文件呢,是C层所写的啊,CC表调到底层那些东西啊,那这个呢,把这个东西给它干什么?
10:17
奥德CD的D哈。Native,好,到这到这干什么事呢?来把它给它干什么?扔掉了。啊,直接覆盖掉,直接覆盖掉就OK了啊,直接盖掉,然后好的点啊重启一下,重一下这个一个步骤,我记得应该是放在这。啊,放在这儿就是你按照那个改一下,改了之后呢,我们可以通过这个命令来查看一下支持的之前你们是不是查看过STEM,这应该是一个什么。First对吧?啊first啊,这我刚才没看到,你们可以有的认为还没导进来的时候,可以查看一下first,然后呢,把这个价包里边,刚才我们所说的你去解压,解压之后呢,做一个替换啊,直接替换,替换之后呢,你可以启动,然后再去。
11:10
检查一下,校验一下,看一下这个结果。有错。错,什么叫无法建全?等待他退出安全模式。就你们再起来了是吗?重新弄一下。起不来吗?的时候。那那你要管理员权限去接对吧。对吧,但是不是,你要是Windows上搞不定这个问题能不能拖到一热去解压了啊,不一样,这个解压的问题就自己解决下吧,啊,我还以为你就起不来了呢,这样走这块X怎么还火。
12:07
说什么东西啊,看no no的点。文件过短。那看来这个Windows解压还是有问题啊。温解压有问题直接去,这个还是有问题,那这样我们改变一下策略,可以做什么事。我到CDOD,诶不到点到这个module data啊,到Linux里边去解啊,到Linux解啊,因为这个好像感觉有点问题,因为它那个文件好像没点问题啊,起来之后他说那个过短,因为我校验了一下这个地方还是什么。还是false啊正常的,它应该会出现住那A点。把它关掉,关掉之后呢,我们把这个准备一下。你们还非得用管理员权限解答是吗?CD的在他里边啊,就是这个,我把它解压一下,它让ZXVF它多吧。
13:08
就解到当不OK吧,反正我们要拿里面的一个点搜文件,他都里的那。就这些东西。啊,这些东西好。还没还了这么慢。放到哪是吧,CD到立CD到native这部。OK吧,然后我们CP-R就是所有的啊递归什么东西啊,嗯,然后呢,A-RA吧R就or所有的R是递归对吧?啊所以这东西给它拿过来,然后我们是在o Mo贝塔底下,我们有一个哈动号底下呢有一个立。Native里边的心啊,所有的内容拷贝到什么?当前目录啊,重新做一个覆盖OK啊这一块呢就搞定了,刚才呢,确实好多几个文件是吧?啊做几个东西了,好,我们重新启动一下啊点。
14:09
Stop stop啊,大家呢,也到这个linus去解压一下啊,因为Windows好像有点问题,刚才解压之后他说文件名不够长之类的过短,对吧,应该是有的文件,呃,在Windows上解压的时候会丢失东西啊,会丢失东西,那我把这个删一下。这个就不要了啊,这个是在Windows解压的。Jump。啊呃,这块就起来了,起来之后呢,我们得等他是吧,退出安全模式啊,还有21秒,然后呢,我们去啊,我们这个命令给拿过来,刚才我们看到的是false对吧?啊false啊等会呢,它会出现这个内码。啊处,然后指向了一个点,So文件。等待退出安全模式。还有三秒一秒OK啊,应该是OK了,这完全模式了,走一下。
15:06
来看一下这。现在就支持select加缩啊,这是这个,最后这个不用管,因为我没有这个什么open SL啊force,他说找不到这个内容,那你就不用管,这个大家都一样,到时候你们看一下,不要想着诶这个是不是有问题,这个它度有问题了,然后重装一下是吧?啊不用它就这样啊,就这样不用重装,主要你看这啊这个就OK了啊,这个就搞定了,那它的一个步骤呢,在这块啊,在这块啊,而且呢,再回过头来啊,回过头来,呃,这个是开启压缩这一块呢,都可以开启,后面呢,我们就会去用一下。啊,后面这块呢,也有测试。啊,也有相应的测试,到时候呢,我们就能测一下测一下,还有这个开启reduce输出地站。开启加速对吧,这个我们讲是reduce。其实刚才我们提到了,它实际上是打的,也是最终的那个文件啊,最终的那个文件,那我们把这个东西特意把的。
16:04
第一个打开哈,这个have的一个,最终的一个输出的一个压缩在这。我们要到哪啊?Have,并号里边啊,进到那个并号里边,然后打开一个压缩压缩。打开输出单压缩,然后我们还要配置一下它的一个压缩方式,因为默认的是不是那个错点对吧,这个大家都知道。第一个是开启全局的一个压缩,然后呢,开启MA6最终的一个压缩啊,这个是全局的,就是你想开ma阶段的,还是想开这个最终的,你都要先把它干什么打开啊,但是呢,我们可以看一下它什么默认值是不是啊,可以看一下它的这个默认值是开关的。关掉,因为MR当中默认的也是什么。关闭状态吧,啊,它不默认的不是开启压缩的,因为你正常出去之后,它是不是一个TST文件啊,还是文本格式的了,对吧?啊首先呢,把它打开同样的第二个属性开启最终的叫file out方马。
17:14
文件输出的一个压缩,这个不是我们所说的对吧,默认的人家用的也是fair form,那看一下它。默认值是什么?First,那我们也给它变成什么,变成处啊,变成数,好这两个都开启了,都开启了,然后接下来配置我们压缩的一个什么。编码方式对吧?啊扣的C啊编码方式,然后把这个来设置一下,我们看一下,看一下它那个什么,也看一下它的一个默认值,它默认值是不是T跟环境一样吧,对吧,我们要把这个东西改成啊现在呢,我们来用一下好设置完了,设完之后呢,我们就可以去还有。这个默认的,我记得应该是行压缩。
18:02
我记得应该是好像说里面是有一个扣的。你还记得你们那个输出的时候是一行一行写出的啊,它默认的我记得应该是行,我们可以看一下默认值啊。行压缩吧,啊,这是行压缩,那我们不要行压缩,我们可以改成一块压缩,因为这个压缩起来效率就会高一些,那你想想看,一行一行压缩还是一块一块压缩效率高啊,一块一块的啊,一块一块的压缩,OK,那其实我们就设置了几个东西,第一个。开启全局的第二个开启最终的,然后指定了一下他这个编码方式,然后指定一下压缩。数据集的一个内容吧,啊,那最后呢,我们就可以来做这个事儿了。In so over local directory。这个干什么?将数据导到本地文件,而且这种方式呢,是通过走MR的一个方式,还有印象吗?对吧?啊走MR的一个方式,那我们导到这个内容来,我把它看成。
19:06
因为我们有data塔,S6S吧,S6S啊,然后叫select新from EP。Ribu by d number so by d number d,这个没有问题吧,这个就是按照部门编号进行分区。同时按照。员工编号进行排序,而且是倒序。对把他拿来。因为这个呢,主要看一下这个压缩方式,方式在这个纳斯里边有一个result c Mo s里边。会多一个,等会会多一个distri的result对吧,这是我们之前测back跟back。这个设置。你在这个里面设置都是单词寻找,你要想在。永久生效要在哪去设置,在配置文件里边啊,这不是set什么什么东西等于处吗?KV形式啊,你写一个promise,然后写一个name,然后把那个前面的P写进去,然后value写一个什么出啊就可以了,是这个意思啊,写在配置文件上,这个只是单词成上,当我们把这个CRLC退出了,它就没效果啊好L。
20:22
谁那个的。结果是什么STEM了对吧,之前是不是只有这么多啊,现在呢,就是因为你开启了压缩,所以呢它生效了,这个东西呢,我们可以看一下。大概的能看出来什么N20啊这类东西对吧,但是有很多东西都是乱七八糟的,也看不懂吧,啊也看不懂,但是你正常的用奈比的方式读这个是没有问题的啊,耐米的一个方式去读这个没有问题的,OK,那这是我们所说的,呃,开启了一下这个压缩,并且用了一下,并且用了一下,你要注意下。
21:02
这个东西啊,呃,它的一个。在这就是你的操作步骤对吧,其实也简单,大家应该记住了,就是在那上我们把那个。编译好的价包一解压,解压之后把哪个东西给它替换掉?在哈底下有一个label label底下有一个native,把里边所有文件给它替换掉,然后重启,注意重启啊,不重启不睡觉的啊,要注意重启啊。
我来说两句