00:01
好,我们看这个具体的需求,那这样,因为这里边有相应的一个答案啊,到时候如果有有兴趣自己看一下,我这样我还是习惯上我直接把这个改什么。给他打款。课堂练习,我新开一个。放在这。做一个保存啊,做一个保存,然后呢,放在这个。资料,Have。资料里边,然后呢,这个是。鼓励你。点。啊,可里面搜啊,还可以搜狗来。好这个呢,一堆需求对吧,啊这一堆需求,然后我就从这儿。第一个需求叫统计观看数的好不对?啊,那这样,呃,为了这个好写一点呢,我们还是把谁拿过来。字段对吧,啊,把字段创建表的字段给他拿一下,嗯,直接这个字段吧,他说C啊,给它放在这上面,因为这样的方便一点,还有一张表吧。
01:05
有的表我也给他拿一下对吧?啊带给他拿来,这样等会呢,操作起来方便点,这个话就不要两张表,呃,表明呢,我也在这注意一下,第一个叫鼓励。Video对吧,准备工作做一下,然后是orc对orc表格OK,那它呢。把它拿一下吧,中间加一个U的对吧,在这加一个U的准备工作先做一下。多了一个这个。小发现啊,英文下有的啊,这个表字段都有了吧,第一个统计视频观看数的一个pop,这个好写了,因为从原始数据当中,我们发现它就有一个这个什么。就是观看数吧,啊,就是观看数,那我们此时怎么写一下这个内容,Top ten select。
02:02
Select什么内容,就看你要查什么吧,这样,呃,我们就查一下这个。Video ID可以吧,Video ID,然后再看一下它这个什么。呃,观看次数对吧,因为观看次数,这样我们就能看出来他是不是什么前十名对吧?啊前十名其他的东西呢?呃,你要想写都填上也行吧,啊都填上也行,不要了了不要了,然后from。鼓励哇塞对吧,然后呢。对吧。OK,然后前十名那直接米什么十就OK了啊,十主要就看你有同学可能在想,那有有没有相同的呢。并列了,如果说你需要并列这种情况你需要用什么rank,用开窗去做吧,啊你就开窗去做,OK,这个需求呢比较简单,但是呢,有可能会有一些问题,我们来看一下。
03:04
怎么还是table?对,有一个东西,这个地方少一个什么D吧,D倒把他跑一下,这个时候呢,有的人跑的时候呢,可能跑不起来。啊,就是由于资源问题啊,资源问题第一个需求比较简单,就帮助大家第一测一下你数据集可不可以用,第二呢,就看一下你的资源够不够,如果第一个都跑起来,后面有很多任务都会跑起来。啊,都要好起来。对,如果说因为我这个地方测了很多次,应该OK444,首先大家我不知道大家的虚拟机是不是给了444就四个G,三台都是四个G吗。大家都是对吧,那大概率能跑起来,如果说还是跑不起来的话啊,他这边报错了,说一个什么异常,但是没有说具体的错误,对吧,那你要去怎么怎么做。
04:00
在这哈,多跑103啊,有可能有的人状态幺零这个无所谓,反正8088端口点到这个什么。日志里边。啊,点到日志里边,大概率是出错了。聚合这边ma端应该还好,一条数据一条数据处理对吧,因为这边呢,做的事情比较多啊,它要排序啊,排序OK,然后你点到这个task里边,你看这个log。你看里边有没有那个什么内存溢出。啊,大概率在这有什么OM啊,你或者说你打印的错误日志比较多的话,你可以直接这样看着F对吧,搜一下有没有。1L,如果没有L说一下什么?Exception能够听懂啊,Exception啊是这意思,如果说就注意啊,有同学是看到这。看到这之后,诶四个C的他就不往下看了,注意你这个地方显示四个C的,不不一定你这个任务真的是成功了啊,你点进去得看日志,得看日志,看这个地方的日志能听懂。
05:01
对,看这个地方日志好,如果你看到了这个地方的日志,说是内存溢出,那这个地方最后来这个地方。你会看到这个错。对应内存对吧,对应内存空间说是OM了OM了,OK,你把这个去指定一下。在雅色里面配一点。啊,这块呢,最后啊,有一个解决方案,11章里边已经提供好了,应该每个班呢都少有一些人,就算有的人电脑44,因为咱们的一个那个内存条啊,或者其他的一个内容啊,还有硬件,但是不一样啊,那不一样,所以呢,有可能有的同学呢,出现内存一出啊出现内存,如果你给二二的大概率会出现这个问题啊,如果说说是两个G,因为早期的时候有同学给的是两个G,三台电脑呢,每一台都是两个G,那大概率出现这个问题,你把它去配一下。把它配一下,注意这个在亚安塞里面配了,配完之后要做什么事。
06:00
重启之前还有一个事,不要忘了分发能听懂,但凡你改了哈多里边任何一个配置文件,记得分发啊,要保持三个统一,保持三个统一,因为你不知道将来这个任务会发送到102还是103还是104去执行吧。啊,因为有可能发到102,有可能发到103,有可能发到104,那你只在102配了,诶可能恰好发到102能执行,发到103104就执行不了了,就会出现诶一个搜同一个搜狗一下子能执行,一下子不能执行这种诡异的事件。对吧,就是很有可能就是因为你这个东西没有分发,导致其他两台节点没有生效,能听懂啊,这个东西要要注意一下这个地方呢,我这个地方没有问题,看一下这个事情。这被观看多少次?万四千万万啊,4000万啊,4000万,呃,这个ID都是那个U上,你完全可以拿着这个名字放到U上去搜,能找到这个视频是一个很老很老的视频,因为我们用的数据零八年的数据了吧,那你想想看,我们用的数据都零八年了,这个他而且在零八年的时候就被看了4000万次,那这个视频。
07:07
肯定在下架,应该没有下架之前看的时候,有时候就是特一还OK,这个视频你去直接搜这个ID能搜到,现在还能搜到,这是上的视频。你们好多人不是都是我看了,去搜东西的时候都可以翻墙。不了。
我来说两句