00:00
好,我们继续啊,接着上午的内容来讲,嗯,上午呢,我们只是把代码给它完成了,那我们正常的是不是还要把数据给它过滤出来啊,对吧?啊,那我们正常还是拖到那个鸡群上,所以呢,把它打包。啊,扔到集群上去运行。因为集群上相关的环境,他都把这一套的环境也都有,所以呢,呃,我们也不需要打那个全量的包啊,带依赖的包,打一个不带依赖的包就够了。你要是打在包的话,你就加一个那个三个插件就够了。打包也这么慢。咱们包之后out单PCD,呃,我把这个包呢,放到OPT model,嗯,然后我再重新建一个吧。专门放一个夹包的路径啊。掉。那个第一个驾驶。啊,我就放在这里边啊,CD的角色。
01:04
打完了啊,Build success好,然后呢,我们拿一下这个夹包就叫他。谁到?CD的这C里边啊,加C里边这个东西就有了啊,东西就有了,呃,然后我们要执行,我们得有数据对吧,数据呢,我们还是同样的,因为在生产环境当中,更多的是读到HDF,数据写到HDFS,所以呢,我们把数据也给他拖进来。呃,然后这个数据呢,我就拖到这个贝塔里边啊,拖到塔里边OK,数据我们来拿一下啊。是的。独立video啊,这两个文件夹吧。嗯,直接进来啊。这个就拖完了,我们检查一下CD到出来到这个贝塔里边。
02:02
一个有着一个video吧,到有着。啊。09039月三号的啊,这个是9月3号的一个U字。然后看一下这个video啊,应该也是没有问题的。利用。134,然后呢,我们把整体这两个东西呢,都给它。上传一下,上下他都把FS杠。负的对吧,呃,User上传到根目录。完了,然后呢,把这个V6也上传一下。没有。嗯。啊,然后呢,我们稍微检查一下确定啊,U的跟V6这两个目录有了,然后我们主要检查这个V6啊。0202345没问题吧,啊,02344个文件越来越大啊,越来越大,最大的139兆是吧,越39兆就是数据量呢,还是有一点。
03:10
应该还有一个就是右侧我们也看一下。20080903没问题吧,啊,这个内容因为默认它有一个user这个目录吗?这不放的还house这个无所谓了,这个无所谓,等会我们导的时候肯定是知道具体的路径吧,啊知道具体的路径OK,那现在我们要运行架包了。运行任务怎么来?这样或者哈多国家也可以吧,啊哈多那个命令呢,其实他把雅安的很多功能和IDF很多功能给它集成了一下。啊,它这个集成因为方便一点,你看你哈多宝你可以操作HDFS,是不是也可以操作这边内容啊,实际上如果说你要分开的话,它实际上是有两个命令啊,有一个是SDF这个命令,还有一个雅安这个命令。
04:04
啊,那个问题,只不过哈多呢,把它切成一下,你可以用哈多架也可以啊呃,牙压架我习惯上还是用牙压酱,呃牙压架,然后呢,指向我们加va的路径,对吧?Opd modu在这个架丝里边。的一个那个内容,然后接下来写他的一个主类的选路径,对吧,全路径后面跟着什么。输入输出的参数吧,输入在哪,我们刚才导的。Video这个目录吧,啊,这个目录给他拿过来,因为五个文件我们都要,文件都要啊,这是一个目录,然后输出我们输出到这个,我看一下这样吧,鼓励。哦。不料的肯定没有吧,这个东西检查一下。没有古丽奥特啊,没有古丽奥特,那我们把这个结果呢,就输出到这啊,跑一下啊。
05:01
来看下,它就会去连接一个resource,我们之前说了端口号这8032吧,对吧,啊resource manager服务端口号是8032。嗯。这个运行啊,要一会,因为我们的数据量还是有一点刷新,这个目录已经生成了啊,目录已经生成了,到时候呢,它会把这个数据生成在这个里面。我没有写。当然我们是没有写对吧,OK,这个就走完了啊,走完了,呃,然后接下来我们看下这个数据。说信啊,一个一个数据,诶200多张,这个数据呢,是已经给它导进来了,也就是说我们通过这个数据已经给它清洗好了,清写好了之后,我们就应该去建表了,对吧,建表导数据了啊建表导数据了,那在这个里面呢,我们用一下那种。
06:09
用一下什么东西呢?用一下orc这种格式。啊,用一下就是后面的查询都用OC这个格式,呃,那我们不是说因为我们当前这个数据这个have里边啊,并没有那个什么分层啊这些概念,所以呢,我们得建一个原始表,然后建一个orc表,然后通过原始表里边导数据啊,导数据来看一下我们首先呢建了一个什么。O表O表呢,还是按它CE来写的啊,它表来写的,然后这里边呢,主要的我们观察一下,就是这个内容,前面这个字段,就前面这十个字段嘛,对吧,里边有两个,一个是cat。我们说了用什么数组,还有一个。Related ID相关视频的ID对吧,也用数组,那它整个多个字段用的是更替风格的,然后数组我们里面写的是什么。
07:03
与符号吧,所以整个集合他啊与符号啊,把它拿过来啊。这个是这个内容,那接下来还有一个U的U的表,我们也给它接一下啊,U的表有三个字段,稍微呢简单一点。后面两个都是因为是两个具体的数字,一个是上传视频数,一个是好友数,对吧,好友数,然后接下来我们把这个数据加载一下漏。Data,他要吗?不用了啊,直接是怕啊这个路径。第一个是不是这个路径。对吧,啊这样吧,因为里边有一个success我们不要。写到这儿。对吧。给拿过来,In,好,Into。Table。这叫鼓励。Video video下划线应该是or?
08:01
是国V6O了啊,找到这张表里来走。导进去了,那我们稍微尝一下,谁来个she from这个什么。狐狸V6Y,然后拎一下吧,啊不要看就直接,要不然字段太多了对吧,啊说这太多了,看两条。应该没有问题,各个字段呢,前面是字段名对吧?啊,前面是字段名,下面呢是具体的一个数字,这个数读,因为它虽然只有一个人,那我们也把它放在数组里边了,对吧?然后后面还有一个什么,最后面是一个数组吧,啊后面数组那这个没有问题啊,没有问题,这是我们导的这个两张表。为表,还有一个优个表吧,漏的。Dataass。这个路径呢,我们拿一下在U的底下对吧。有的。2008T。这个呢,我们就可以写到这个啊,里边呢,有哪个数据叫U的点TT对吧。
09:01
T ST into。Table。叫武力video进来from这个。Limit。还是看着聊?两条没问题吧,啊,三个字段,三个字段没问题啊,这个数据给它导进来了,然后接下来我们说了要用or表啊,要用orc表,所以呢,我们把orc表的一个格式给它干什么。来跑一下跑一下他拿过来啊,这里面呢,跟刚才那个区别唯一的就在这。就最后一个格式不同啊,大家用一下啊,用一下C其他的字段呀,这些东西都一样,呃,然后是这个什么。有的表对吧,啊有的表。清洗完的数据我们已经导过了,我们直接干什么ins色的就行了啊,色的查询插入的方式要如果说你用漏的方式,它会形成那个OC的那种格式嘛。
10:01
我不会啊,你也得通过MR啊,你得通过MR来做。这个走完之后呢,我们把它也导一下,导完之后呢,我们把数据给他查一下。嗯。嗯。这个就比较慢一点。嗯。还有我发现大家好多人还是那个历史服务,有的人还是不开啊历史服务。去开一下,去开一下,要不然你有很多东西日志你看不到啊,有很多日志你看不到,得开一下,后面等会我们可能啊,就是这个问题。第一个需求虽然简单,但是有可能会遇到一个问题,就是资源问题啊,这资源问题到时候我们会说一下。
11:00
有可能有时候又是好的,有时候又会出现这个资源问题。好,这个数据导进来了,导进来之后呢,我们把这个U的表也导一下啊,U的表也导一下。导进去之后呢,我们把两张表的数据都给他查一下。从O表呢,导到这个orc表啊,两个OC表。就后面呢,我们都用直接用那个orc表。嗯。好,然后呢,我们select新from这个鼓励。下划线叫。Orc表是吧?哇塞,然后里面。都看一下orc这种格式O不OK也没有问题,跟刚才的数据一样吧,看看company对吧,不知道大家还记不记得,然后还有一个select新from这个什么。
12:00
鼓励。下划线悠着下划线OC吧,我们应该也。没有问题吧,还是这两条数据啊,还是这两条数据,因为是他只是简单的导了一下数据啊,只是简单的导了一下数据,这个就OK了,也就是说我们现在整个的一个数据啊,还有表这个东西呢,都已经搞定了啊,都已经搞定了,我们见一下。
我来说两句